溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

GitHub遷移到K8S的最佳實踐是怎樣的

發(fā)布時間：2021-12-15 19:03:24 來源：億速云閱讀：146 作者：柒染欄目：云計算

GitHub遷移到K8S的最佳實踐是怎樣的，相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

為什么嘗試改變——釋放SRE工程師

在此之前，主要的Ruby On Rails應用（github/github）還類似于8年前：“Unicorn processes”由Ruby進程管理器調用運行在 Puppet-managed的“God”。同樣的，部署ChatOps如同第一次引入時所作：Capistrano在每個前端服務器上建立SSH連接，然后更新代碼，重新啟動應用，當峰值請求負載超過可用的前端CPU容量時，GitHub站點的SRE會釋放額外的容量，并將其添加到活動前端服務器池當中。

在近幾年中，雖然基本生產方法沒有太大的變化，不過GitHub本身有了很多改變如：新的功能、更大的社區(qū)、更多的員工、以及更多的需求。所以這也就產生了很多新的問題，許多團隊想將其負責的功能從某個大的應用中提取出來，形成一個可以獨立運行和部署的小型服務。伴隨著運行服務數(shù)量的增加，SRE團隊開始為數(shù)十個其他應用提供類似的配置，從而增加了在服務器維護、配置和其他工作上花費的時間，但這些工作又和改進整個GitHub的工作流程沒有直接關聯(lián)。

新服務因為它們的復雜性和SRE團隊的時間問題，需要幾天、幾周或者幾個月的時間來進行部署，隨著時間的推移，一些問題逐漸顯現(xiàn)：這種方法并沒有為工程師提供他們需要的靈活性，以繼續(xù)構建世界級的服務。

工程師們需要一個自助平臺，可以在上面試驗、部署和擴展新的服務，還需要同樣的平臺來滿足Ruby On Rails應用的需求，這樣工程師或機器人就能以秒、天或更長的時間來分配額外的計算機資源去響應需求的變化。

為了滿足這些需求，SRE、平臺和開發(fā)者體驗團隊開始了一個聯(lián)合項目：每天數(shù)十次地將github.com和api.github.com的代碼部署到Kubernetes集群。

為什么是Kubernetes？

為了評估“平臺即服務”的工具，GitHub仔細研究了Kubernetes，它是Google的一個項目，用于自動化部署、擴展和管理容器化應用的開源系統(tǒng)，通過以下幾點為Kubernetes特性做了評估：該項目獲得了火熱的開源社區(qū)支持，首次運行實踐（允許部署小型集群和應用在最初的幾個小時），大量關于設計的經驗。

因此迅速地擴大了實驗力度和范圍：立了一個小的項目去構建Kubernetes集群和部署工具，用來支持即將到來的Hack Week從而獲得一些實際場景中的經驗，GitHub內部對這個項目反映非常積極。

為什么從github/github開始？

在項目最初階段，GitHub做了一個深思熟慮的決定：關鍵性工作負載的：github/github遷移，許多因素促成了這一決定，比較重要的幾點是：

需要自助擴展工具來處理持續(xù)的增長
希望確保開發(fā)習慣和模式適用于大型應用和較小的服務
可以更好地將應用與開發(fā)、Staging、生產、Enterprise、和其他環(huán)境隔離
遷移一個關鍵的、高知名度的工作負載可以激發(fā)信心，讓更多的Kubernetes在GitHub上采用。

Rapid iteration and confidence building with a review lab

作為遷移的一部分，進行了一些設計以及原型，并驗證了前端服務器使用Kubernetes的基礎服務如：Pod、部署和服務。通過在容器中運行gitub/github現(xiàn)有的測試套件，可以對這種新設計進行一些驗證，但仍需觀察這個容器是如何成為更大的Kubernetes資源一部分的，很快就清楚地認識到，在驗證階段，對Kubernetes和打算運行的服務進行探索性測試環(huán)境是必備的。

與此同時，項目成員觀察到，現(xiàn)有的github/github抓取請求的模式已經開始顯示出增長十分困難的跡象，部署速度和工程師的數(shù)量成正比，使用幾個額外的部署環(huán)境作為驗證拉取請求到github/github的部分過程也是如此，在工作高峰時，功能齊全的部署環(huán)境數(shù)量往往是固定的，這就降低了部署拉取請求的過程，工程師門經常要求在“Branch Lab”中測試更多的子系統(tǒng)，同時允許多名工程師同時進行部署，但每個工程師只能啟動一個“Unicorn Process”，所以只在測試API和UI變更時有用，因為這些需求重疊很多，所以可以將這些項目結合起來，并開始在github/github上開發(fā)一個新的基于Kubernet/github的部署環(huán)境，被稱之為：Review Lab。

在構建Review Lab的過程中，還發(fā)布了幾個子項目：
在AWS VPC上運行的Kubernetes集群管理使用了Terraform & Kops
一組Bash集成測試使用短暫的Kubernetes集群，后來在項目開始時大量使用，增強對Kuberbetes的信心。
一個github Dockerfile/github
對內部CI平臺的增強，用來支持構建和將容器發(fā)布到容器注冊中心
YAML表示50+Kubernetes資源，簽入github/github
對內部部署應用的增強，支持將Kubernetes的資源從一個存儲庫部署到Kubernetes的命名空間，以及從內部存儲庫中創(chuàng)建Kubernetes
該服務結合了Haproxy和Consul-Template，將Unicorn Pods路由到現(xiàn)有的服務，發(fā)布服務信息。
一種讀取Kubernetes事件的服務，并將異常事件發(fā)送給內部服務跟蹤系統(tǒng)
一種名為kube-me且與Rpc兼容的服務，通過聊天向用戶公開一組有限的kubectl命令。
最終的結果是一個基于聊天的界面，用于為任何拉取請求創(chuàng)建GitHub的獨立部署，一旦請求通過了所有需要的CI任務，用戶即可部署他們的請求：

如同之前的“Branch Lab”一樣，實驗室在最后一次部署后就被清理掉，由于每個實驗室都是在其Kubernetes名稱空間中創(chuàng)建的，清理工作就像刪除名稱空間一樣簡單，部署系統(tǒng)會在需要時自動執(zhí)行。

Review Lab是一個成功的項目積累了許多經驗和成果，在為工程師提供這種環(huán)境之前，還為Kubernetes集群設計提供了必要的驗證基礎和原型環(huán)境，以及Kubernetes資源的設計和配置，這些資源現(xiàn)在用以描述github/github的工作負載，在發(fā)布后，它幫助工程師建立了信心，GitHub非常滿意這個環(huán)境賦予工程師實驗和通過自助的方式去解決問題。

Metal Cloud上的Kubernetes

隨著Review Lab的發(fā)布后，注意力就轉移到了github.com上，為了滿足關鍵服務的性能的可靠性需求（依賴于低延遲訪問其他數(shù)據(jù)服務），需要構建Kubernetes的基礎設施，去支持在物理數(shù)據(jù)中心和POP中運行的云計算，同樣，有12個子項目：
關于容器網(wǎng)絡，因為一個及時且詳盡的帖子，GitHub選擇了Calico，其提供了需要在IPIP模式下快速發(fā)送一個集群的功能，與此同時也提供了可以在以后的網(wǎng)絡基礎設施中進行探索的靈活性。
通過十幾次閱讀Kelesyhightower寫的《Kubernetes the hard way 》，GitHub將一些手動操作的服務器組裝到了一個臨時的Kubernetes集群中，此集群通過了相關測試。
還構建了一些小工具，為每個集群生成所需的CA和配置，格式可以由Puppet和Secret Systems 使用。
對兩個實例配置進行了處理：Kubernetes節(jié)點和Kubernetes Apiservers，這種方式允許用戶提供已經配置的集群名稱，以便在規(guī)定的時間內引入。
構建了一個小型的Go服務，用于消耗容器日志，將Key/Value格式的元數(shù)據(jù)附加到每一行，并將它們發(fā)送到主機的本地Syslog端點。
加強內部負載均衡服務，用來支持Kubernetes Node Port。

這些工作并沒有白費，都通過了內部驗收測試的集群，因此，GitHub的信心十足，同樣的一組Inputs（由Review Lab使用的Kubernetes資源），相同的數(shù)據(jù)集（網(wǎng)絡服務Review Lab連接到VPN上），同樣的工具都會產生類似的結果，不到一周，雖然大部分的時間都花費在了內部通信和排序上，但對遷移產生了非常重大的影響：可以將整個工作負載從運行在AWS上的Kubernetes集群遷移到一個運行在GitHub數(shù)據(jù)中的集群。

Raising the confidence bar

Kubernetes集群在Github Metal Cloud上的成功和可復制性，所以是時候對“Unicorn”進行部署來替代當前前端服務器池了，在GitHub，工程師及其團隊通過創(chuàng)建一個Flipper特性去驗證新功能是很常見的做法，若可行即選擇它，然后加強部署系統(tǒng)再去部署一套新的Kubernetes資源，github-produciton名稱空間和現(xiàn)有的生產服務器，提高GLB支持員工請求路由到不同的后端：基于Flipper-infuenced的cookie，允許員工在任務控制欄的一個按鈕上選擇實驗Kubernetes后端。

來自內部用戶的負載可以幫助發(fā)現(xiàn)問題、修復BUG，并開始適應Kubernetes的生產，在此期間，通過模擬未來想要執(zhí)行的應用、編寫運行手冊和執(zhí)行Failure Tests來增強信心，還將少量的生產流量路由到這個集群，去確認對于負載下性能和可靠性的設定，從每秒100個請求開始，然后擴展到github.com和api.github.com請求的10%，在幾個模擬試驗中曾短暫地停止用來重新評估完全遷移的風險。

Cluster Groups

因為一些Failure Tests導致了意料之外的結果，特別是模擬單個Apiserver節(jié)點故障的測試破壞了集群，這種方式對運行工作負載的可用性造成了負面影響，根據(jù)調查顯示，這些測試沒有取得決定性的效果，但幫助識別出相關的破壞可能是一個相互作用的各種客戶連接到Kubernetes Apiserver（像Calico-Agent Kubelet Kube-Proxy，Kube-Controller-Manager）和內部負載均衡器的行為在一個Apiserver節(jié)點中的失敗，因為檢測到Kuberntes集群降級可能會破壞服務，所以開始關注了每個站點上運行的關鍵應用，并自動化地將請求從一個不健康的集群遷移到其他健康的集群。

類似的工作已經放在GitHub的流程圖中，支持此應用部署到多個獨立運營的網(wǎng)站，和其他積極的方式進行取舍。最終選定的設計是：使用部署系統(tǒng)支持多個“分區(qū)”增強它通過一個定制的支持提供集群乏味內配置Kubernetes資源注釋，放棄現(xiàn)有的聯(lián)合解決方案，允許使用業(yè)務邏輯已經出現(xiàn)在GitHub的部署系統(tǒng)。

從10%到100%

有了集群組，GitHub逐漸將前端服務器轉換為Kubernetes節(jié)點，并增加了路由到Kubernetes的流量，與其他一些工程師團隊一起，在一個多月的時間內完成了前端的轉換，同時，在這此期間保持了預計的性能和可接受的錯誤率。

在遷移過程中，遇到了一直持續(xù)至今的問題：在高負載/或高利用率的容器中，一些Kubernetes節(jié)點會出現(xiàn)內核錯誤并會重啟，雖然GitHub對這種情況不是很滿意，而且進行了最高優(yōu)先級的排查，但還是很高興地看到Kubernetes能夠自動地繞過這些故障，并繼續(xù)在錯誤范圍內服務流量。

GitHub進行了一些Failure Tests，模擬了與echo c/proc/sysrq觸發(fā)相似的內核錯誤，這是一個很有用的補充。

看完上述內容，你們掌握GitHub遷移到K8S的最佳實踐是怎樣的的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
如何進行NVIDIA及k8s-device-plugin源碼分析
下一篇新聞：
linux如何修改path環(huán)境變量

猜你喜歡

AI
助
手

產品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網(wǎng)站二維碼

<var id="i2hpg"><legend id="i2hpg"></legend></var>

<var id="i2hpg"><legend id="i2hpg"></legend></var>