溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

鵝廠如何構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)

發(fā)布時(shí)間:2020-08-09 06:50:11 來(lái)源:ITPUB博客 閱讀:263 作者:李雪薇 欄目:互聯(lián)網(wǎng)科技

本文轉(zhuǎn)載自微信公眾號(hào)“ 鵝廠網(wǎng)事”(ID:tencent_network),作者:黃翔。
      
鵝廠是一個(gè)業(yè)務(wù)類型非常豐富的互聯(lián)網(wǎng)公司,涵蓋了大型社交流量平臺(tái)(微信/QQ)、在線游戲、公有云、媒體(新聞/視頻)、移動(dòng)應(yīng)用、開(kāi)放平臺(tái)、互聯(lián)網(wǎng)金融等,不同類型的業(yè)務(wù)都有著自己的技術(shù)應(yīng)用特點(diǎn)、業(yè)績(jī)目標(biāo)、成本考量體系,從而產(chǎn)生了對(duì)后臺(tái)技術(shù)支撐能力的不同訴求。網(wǎng)絡(luò)作為基礎(chǔ)架構(gòu)中的重要一環(huán),也面臨著這些海量業(yè)務(wù)運(yùn)營(yíng)帶來(lái)的種種挑戰(zhàn)。好在鵝廠是一個(gè)專業(yè)技術(shù)能力較強(qiáng)、內(nèi)部合作順暢的生態(tài)系統(tǒng),將“不斷提升用戶體驗(yàn)”作為統(tǒng)一的技術(shù)目標(biāo),很多事情就可以分布式合作去完成,基于這一特點(diǎn),作為鵝廠基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的架構(gòu)師也深感幸福,因?yàn)榭梢愿諗?、更聚焦的去解決一些有共性的重點(diǎn)問(wèn)題——標(biāo)準(zhǔn)化的基礎(chǔ)網(wǎng)絡(luò)平臺(tái)。

怎么搭建這個(gè)龐大的基礎(chǔ)網(wǎng)絡(luò)平臺(tái)本身是一個(gè)非常復(fù)雜的議題,網(wǎng)絡(luò)技術(shù)本身在這其中可能只占據(jù)不到20%的分量,為了讓網(wǎng)絡(luò)規(guī)劃、建設(shè)、運(yùn)營(yíng)形成一個(gè)健康的體系,并不斷提升業(yè)務(wù)系統(tǒng)面向用戶的體驗(yàn),需要考慮非常多的問(wèn)題:包括網(wǎng)絡(luò)技術(shù)選型、公司資源發(fā)放趨勢(shì)、端到端的運(yùn)營(yíng)體系、網(wǎng)絡(luò)技術(shù)發(fā)展趨勢(shì)、硬件供應(yīng)鏈管理、綜合成本把控、迭代與穩(wěn)定運(yùn)營(yíng)之間的Trade-off、風(fēng)火水電、國(guó)內(nèi)/國(guó)際通信環(huán)境等等因素,而這其中每一項(xiàng)幾乎都可以寫(xiě)幾本書(shū)來(lái)講了。本文則聚焦于網(wǎng)絡(luò)本身,筆者爭(zhēng)取用通俗易懂的描述,簡(jiǎn)單的分享一下鵝廠構(gòu)建基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的思路。
      
先看一張鵝廠基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的整體架構(gòu)圖(如下),網(wǎng)絡(luò)之所以會(huì)演進(jìn)到今天這個(gè)樣子,主要是因?yàn)轾Z廠網(wǎng)絡(luò)的價(jià)值主體是不斷構(gòu)建和優(yōu)化的兩個(gè)能力——“連接服務(wù)與服務(wù)的能力”“連接服務(wù)與用戶的能力”,網(wǎng)絡(luò)架構(gòu)的發(fā)展必須圍繞著兩個(gè)能力來(lái)演進(jìn)。同時(shí),再根據(jù)上層業(yè)務(wù)特點(diǎn)(離線/在線)、地理資源豐富程度(地/電)、ISP網(wǎng)絡(luò)布局、災(zāi)備要求、綜合成本構(gòu)成等因素,將整體基礎(chǔ)網(wǎng)絡(luò)平臺(tái)分為三大塊:

鵝廠如何構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)
      · Data Center:數(shù)據(jù)中心網(wǎng)絡(luò),給同一個(gè)園區(qū)內(nèi)部所有的服務(wù)器提供高速交換的能力。
      · Edge:邊緣網(wǎng)絡(luò),用于對(duì)接用戶(ISP)的邊界網(wǎng)絡(luò)。
      · DCI:數(shù)據(jù)中心互聯(lián)廣域網(wǎng)絡(luò),負(fù)責(zé)將散落在全球的這些Data Center與Edge連接起來(lái)。
      每一塊網(wǎng)絡(luò)架構(gòu)都會(huì)遵循整體基礎(chǔ)網(wǎng)絡(luò)的價(jià)值目標(biāo),并且結(jié)合自身獨(dú)有的特點(diǎn)進(jìn)行演進(jìn)與優(yōu)化,下面就針對(duì)這三大網(wǎng)絡(luò)架構(gòu)的構(gòu)建思路展開(kāi)進(jìn)行探討。
      數(shù)據(jù)中心網(wǎng)絡(luò)


鵝廠如何構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)

數(shù)據(jù)中心網(wǎng)絡(luò)聚焦于“連接服務(wù)與服務(wù)的能力”,在整個(gè)網(wǎng)絡(luò)投資板塊占據(jù)很高分量,通過(guò)多年的積累,數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)形成幾萬(wàn)網(wǎng)元的體量。面對(duì)如此體量的網(wǎng)絡(luò),一定是需要有一套嚴(yán)密的構(gòu)建體系來(lái)支撐的,包括設(shè)計(jì)、建設(shè)、運(yùn)營(yíng)、供應(yīng)鏈管理等環(huán)節(jié),因?yàn)殡S便一個(gè)錯(cuò)誤意味著不可想象的影響范圍和返工量。按照常理來(lái)看,數(shù)據(jù)中心網(wǎng)絡(luò)是離業(yè)務(wù)最近的網(wǎng)絡(luò),而如此大的體量應(yīng)該是運(yùn)營(yíng)壓力最大的部分,其實(shí)這個(gè)問(wèn)題在鵝廠并沒(méi)有想象的那么嚴(yán)重,前文提到過(guò),鵝廠是一個(gè)專業(yè)能力較強(qiáng)、內(nèi)部合作順暢的生態(tài)系統(tǒng),經(jīng)過(guò)了多年的磨合,上層業(yè)務(wù)和基礎(chǔ)網(wǎng)絡(luò)形成了很好的合作默契,業(yè)務(wù)系統(tǒng)架構(gòu)(尤其是平臺(tái)級(jí)業(yè)務(wù))的健壯性、容災(zāi)設(shè)計(jì)、調(diào)度能力達(dá)到了非常高的水平,使得基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的架構(gòu)師可以用標(biāo)準(zhǔn)化、健壯性好的技術(shù)來(lái)滿足幾乎絕大部分業(yè)務(wù)對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的要求,從而可以有更多精力集中在數(shù)據(jù)中心網(wǎng)絡(luò)相關(guān)更底層、更專業(yè)領(lǐng)域內(nèi)深耕細(xì)作。
      關(guān)于鵝廠數(shù)據(jù)中心網(wǎng)絡(luò)的玩法,或者說(shuō)要運(yùn)轉(zhuǎn)數(shù)據(jù)中心網(wǎng)絡(luò)需要具備什么能力,將這些年的經(jīng)驗(yàn)和思路可以稍作總結(jié)如下:
      · 數(shù)據(jù)中心網(wǎng)絡(luò)與基建環(huán)境(Campus/Building)深度結(jié)合進(jìn)行整體設(shè)計(jì)和交付,采用多級(jí)CLOS方案進(jìn)行Campus-level/Building-level的整體端到端設(shè)計(jì),包括設(shè)備功耗規(guī)劃、設(shè)備上架布局、布線規(guī)劃、物理故障域規(guī)劃等方面,以達(dá)到綜合架構(gòu)、建設(shè)、成本、維護(hù)上的最優(yōu)解。要從方法論高度對(duì)數(shù)據(jù)中心組網(wǎng)的CLOS結(jié)構(gòu)有深入研究(上圖是Sigcomm論文中G家的數(shù)據(jù)中心網(wǎng)絡(luò)的邏輯圖),這個(gè)議題其實(shí)沒(méi)有想象的那么簡(jiǎn)單,是一整套綜合考慮交換機(jī)成本、光成本、風(fēng)火水電環(huán)境、網(wǎng)絡(luò)技術(shù)等一些列問(wèn)題的方法論體系,關(guān)于CLOS網(wǎng)絡(luò)怎么搭建,鵝廠架構(gòu)師甚至總結(jié)出了一整套公式算法,后續(xù)會(huì)開(kāi)設(shè)專題進(jìn)行探討。
      · 要對(duì)交換網(wǎng)絡(luò)體系架構(gòu)有較深入的理解,這是網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)最基礎(chǔ)的技術(shù)儲(chǔ)備部分,無(wú)論是自研交換機(jī)還是商用交換機(jī),都對(duì)技術(shù)開(kāi)發(fā)、測(cè)試能力、基礎(chǔ)技術(shù)的掌握能力有較高的要求,這里面涉及的點(diǎn)包括交換芯片、光部件、系統(tǒng)協(xié)議棧、對(duì)SDK使用的積累等部分。
      · 對(duì)行業(yè)現(xiàn)狀和趨勢(shì)的整體分析能力,對(duì)行業(yè)供應(yīng)鏈的整體把控能力,并且可以針對(duì)行業(yè)環(huán)境的變化具備敏捷的適應(yīng)能力。比如隨著服務(wù)器接入速率的不斷提高,在數(shù)據(jù)中心網(wǎng)絡(luò)總成本中,光的比重越來(lái)越高,要能提前洞察到這些趨勢(shì)和變化,并結(jié)合自身的情況調(diào)整戰(zhàn)略和架構(gòu)。
      · 海量標(biāo)準(zhǔn)化的數(shù)據(jù)中心網(wǎng)絡(luò)生產(chǎn)已經(jīng)成為貫穿全年的常規(guī)工作,需要有一整套貫穿架構(gòu)設(shè)計(jì)、建設(shè)、運(yùn)營(yíng)、擴(kuò)容、資產(chǎn)、變更、退役等生命周期線上自動(dòng)化管理工具系統(tǒng),才能保證IDC生產(chǎn)業(yè)務(wù)的健康運(yùn)轉(zhuǎn),鵝廠在2014年重構(gòu)了一整套這樣的工具系統(tǒng),并不斷優(yōu)化迭代,從架構(gòu)設(shè)計(jì)到機(jī)房退役,都可以在線上完成。
      · 運(yùn)營(yíng)工具平臺(tái)需要從多維度對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)行立體監(jiān)控,包含了白盒監(jiān)控方法,比如針對(duì)網(wǎng)元本身的告警管理與收斂;黑盒監(jiān)控方案,比如Full-Mesh的Probe反映網(wǎng)絡(luò)健康狀況;還包括與上層業(yè)務(wù)之間的映射和互相聯(lián)動(dòng),比如鵝廠最大的流量平臺(tái)微信有大量的服務(wù)器和一整套網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng),與網(wǎng)絡(luò)平臺(tái)合作一同快速發(fā)現(xiàn)故障并聯(lián)動(dòng)操作隔離。
      · 對(duì)SDN方法論的正確使用,是需要根據(jù)場(chǎng)景來(lái)構(gòu)建SDN體系的工作內(nèi)容和效用,SDN在數(shù)據(jù)中心網(wǎng)絡(luò)更多的是針對(duì)大規(guī)模網(wǎng)絡(luò)的Routing適應(yīng)性問(wèn)題、集中鏈路狀態(tài)維護(hù)、擁塞管理、故障屏蔽等方面發(fā)力,非常有針對(duì)性的解決問(wèn)題,而不是SDN for ALL。
      邊緣網(wǎng)絡(luò)(海外)
      邊緣網(wǎng)絡(luò)(Edge)聚焦于“連接服務(wù)與用戶的能力”,其主要任務(wù)就是能將鵝廠的服務(wù)以最短的路徑、最好的質(zhì)量送到全球各地用戶的手上。國(guó)內(nèi)的邊緣網(wǎng)絡(luò)普遍以靜態(tài)對(duì)接ISP的形式存在,海外則以BGP對(duì)接為主,本章節(jié)主要對(duì)鵝廠海外的邊緣網(wǎng)絡(luò)架構(gòu)進(jìn)行介紹。
      海外ISP數(shù)量眾多,導(dǎo)致全球Internet是一個(gè)非常復(fù)雜的網(wǎng)絡(luò)環(huán)境,如果鵝廠所有的服務(wù)都是從海外的Data Center直接送給當(dāng)?shù)氐膸讉€(gè)大ISP從而觸達(dá)全球每一位用戶的話,是非常難做到給各地用戶都提供非常好的網(wǎng)絡(luò)體驗(yàn)的。鵝廠花了大力氣來(lái)解決這個(gè)問(wèn)題:
      
· 鵝廠部署了很多資源來(lái)獲取全球用戶觸達(dá)鵝廠各地服務(wù)的探測(cè)和質(zhì)量數(shù)據(jù),作為業(yè)務(wù)開(kāi)展和網(wǎng)絡(luò)加速的依據(jù),從而可以制定出有針對(duì)性的架構(gòu)方案和建設(shè)計(jì)劃。
      · 邊緣網(wǎng)絡(luò)用于連接各個(gè)ISP,這個(gè)連接我們稱之為“出口”,出口的類型我們從架構(gòu)上分為兩種:基于Region的主出口Edge,和用于區(qū)域網(wǎng)絡(luò)加速的Edge-POP。
      · Edge作為基于Region的主出口往往靠近Data Center,連接了大量的ISP,作為該Region的缺省出口。
      · Edge-POP作為區(qū)域加速的覆蓋點(diǎn),其規(guī)劃和建設(shè)的節(jié)奏是綜合眾多依據(jù)來(lái)考慮的,包括當(dāng)?shù)鼐W(wǎng)民數(shù)量、上層業(yè)務(wù)規(guī)劃、覆蓋質(zhì)量、當(dāng)?shù)赝ㄐ怒h(huán)境、綜合成本等因素。
      · 所有的Edge和Edge-POP可以看成一整個(gè)資源池,承載于DCI網(wǎng)絡(luò)上面。鵝廠如何構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)
      邊緣網(wǎng)絡(luò)在技術(shù)上也會(huì)遇到很多挑戰(zhàn),即多出口管理能力、流量調(diào)度能力、故障恢復(fù)能力等。在很早的時(shí)候,管理多出口和調(diào)度流量還使用的是傳統(tǒng)的網(wǎng)絡(luò)手段,經(jīng)常會(huì)因?yàn)槟骋粋€(gè)出口的質(zhì)量惡化,鵝廠網(wǎng)絡(luò)工程師需要手工登錄到網(wǎng)絡(luò)設(shè)備上用腳本去調(diào)整路由策略,以牽引流量去往質(zhì)量更好的出口,隨著出口數(shù)量的不斷增加,不管是在網(wǎng)絡(luò)規(guī)劃方面還是手工優(yōu)化流量方面,都變的越來(lái)越復(fù)雜和力不從心。舉一個(gè)簡(jiǎn)單的例子,當(dāng)只有兩個(gè)出口的時(shí)候,規(guī)劃和優(yōu)化都非常簡(jiǎn)單,要么雙活要么主備,誰(shuí)出問(wèn)題就關(guān)掉誰(shuí),動(dòng)態(tài)路由協(xié)議會(huì)自動(dòng)收斂,看起來(lái)非常簡(jiǎn)單,但試想當(dāng)出口的數(shù)量有幾百個(gè)甚至上千個(gè)的時(shí)候,如何規(guī)劃這些出口的使用規(guī)則?正常情況下每個(gè)出口走哪些服務(wù)或者用戶的流量?故障或者質(zhì)量惡化情況下這些出口之間的備份關(guān)系如何?還要結(jié)合帶寬、成本、互聯(lián)ISP網(wǎng)絡(luò)內(nèi)部負(fù)載情況等因素來(lái)進(jìn)行綜合考慮和設(shè)計(jì),這個(gè)就變成了非常復(fù)雜的議題了,曾幾何時(shí),鵝廠的出口網(wǎng)絡(luò)設(shè)備上有著幾千行的路由策略命令,有的跟規(guī)劃有關(guān),有的跟優(yōu)化有關(guān),有的跟處理故障有關(guān),網(wǎng)絡(luò)運(yùn)營(yíng)變的越來(lái)越復(fù)雜,而且出口的數(shù)量還在迅猛增長(zhǎng)。
      
幾年前,我們就意識(shí)到如果不重構(gòu)這一塊的設(shè)計(jì),遲早有一天會(huì)玩不下去,正當(dāng)SDN的浪潮席卷而來(lái),我們借鑒了SDN的思路,并花了不短的時(shí)間來(lái)構(gòu)建這一塊的能力,形成鵝廠網(wǎng)絡(luò)的一個(gè)非常重要的競(jìng)爭(zhēng)力,這個(gè)能力的核心就是多出口的集中控制,我們內(nèi)部稱之為 “用上帝視角來(lái)選擇出口和調(diào)度流量”。簡(jiǎn)單的來(lái)說(shuō),我們將所有出口的帶寬、路由、流量、質(zhì)量、成本、IP與AS對(duì)應(yīng)關(guān)系等信息采集或輸入至中央控制系統(tǒng)中,再開(kāi)發(fā)出一套符合我們業(yè)務(wù)要求的算法,實(shí)現(xiàn)集中計(jì)算,保證各ISP、各地的用戶都能以當(dāng)下的基礎(chǔ)設(shè)施條件下,以最好的網(wǎng)絡(luò)質(zhì)量訪來(lái)問(wèn)鵝廠的服務(wù),計(jì)算完成后再將執(zhí)行策略下發(fā)到轉(zhuǎn)發(fā)設(shè)備從而牽引流量落地。目前,這一整套體系已經(jīng)在現(xiàn)網(wǎng)落地,同時(shí),我們還在這個(gè)平臺(tái)上構(gòu)建了一套服務(wù)層,讓上層業(yè)務(wù)可以自行開(kāi)發(fā)APP使用這套集中控制系統(tǒng)來(lái)實(shí)現(xiàn)自己的需求,比如在DDOS就近清洗與一鍵封堵方面、公有云客戶流量自動(dòng)切換出口方面、平臺(tái)級(jí)業(yè)務(wù)區(qū)域質(zhì)量?jī)?yōu)化方面等。
      DCI廣域網(wǎng)絡(luò)

DCI廣域網(wǎng)絡(luò)同時(shí)負(fù)責(zé)構(gòu)建“連接服務(wù)與服務(wù)的能力”及“連接服務(wù)與用戶的能力”,即是將鵝廠全球所有Data Center連接起來(lái)的網(wǎng)絡(luò),是整個(gè)基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的重中之重,前文講的多出口流量調(diào)度(海外DC與海外用戶之間的流量)也承載在這張廣域網(wǎng)上面。
鵝廠如何構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)
      上圖即為DCI網(wǎng)絡(luò)架構(gòu)的示意圖,可以留意到在中間的位置有兩張廣域網(wǎng),這個(gè)設(shè)計(jì)跟鵝廠的上層業(yè)務(wù)特點(diǎn)是密不可分的。最初只有一張DCI網(wǎng)絡(luò),即DCI for Elastic Services,這張網(wǎng)絡(luò)承載了所有的廣域流量,是一張重載的網(wǎng)絡(luò),我們幾年前開(kāi)始使用TE技術(shù)來(lái)提高這張網(wǎng)絡(luò)的利用率和流量調(diào)度能力,使得這張網(wǎng)絡(luò)的技術(shù)迭代和建設(shè)擴(kuò)容成為頻繁的日常工作,而鵝廠平臺(tái)級(jí)業(yè)務(wù)的容錯(cuò)性和架構(gòu)設(shè)計(jì)都非常強(qiáng)大,與基礎(chǔ)網(wǎng)絡(luò)配合也較為默契,使得這張網(wǎng)絡(luò)得以高速的發(fā)展。近些年,金融業(yè)務(wù)和公有云業(yè)務(wù)逐漸成為網(wǎng)絡(luò)保障的重點(diǎn),這兩種業(yè)務(wù)和之前鵝廠的大流量平臺(tái)級(jí)業(yè)務(wù)的差異較大,對(duì)網(wǎng)絡(luò)質(zhì)量和可用率都提出了極高的要求,我們?yōu)榱藨?yīng)對(duì)公司業(yè)務(wù)這方面的變化,開(kāi)始著手構(gòu)建了第二張網(wǎng)絡(luò)(圖中的DCI for Interactive Services),來(lái)重點(diǎn)服務(wù)這部分業(yè)務(wù)。關(guān)于這兩張網(wǎng)絡(luò)特點(diǎn),分別描述如下:
       · 
DCI for Elastic Services:大流量廣域網(wǎng),承載了鵝廠90%以上的廣域流量,為大多數(shù)鵝廠成熟平臺(tái)級(jí)業(yè)務(wù)服務(wù),是一張新技術(shù)快速迭代與擴(kuò)容頻率較高的網(wǎng)絡(luò),部分鏈路利用率有時(shí)會(huì)到達(dá)80%以上。
      · DCI for Interactive Services:精品廣域網(wǎng),服務(wù)互聯(lián)網(wǎng)金融等對(duì)網(wǎng)絡(luò)質(zhì)量依賴很強(qiáng)的業(yè)務(wù),使用通用、成熟、穩(wěn)定的技術(shù)構(gòu)建,鏈路利用率控制在40%以下,無(wú)新技術(shù)迭代,擴(kuò)容變更頻率也非常低。
      前文多次提到,網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)是一個(gè)龐大的系統(tǒng)工程,需要考慮非常多的因素,而這些因素中最基礎(chǔ),以及與網(wǎng)絡(luò)本身最貼近的部分就是組網(wǎng)與技術(shù)選型了。廣域網(wǎng)拓?fù)浒葱杞ㄔO(shè),隨著業(yè)務(wù)的發(fā)展和流量增長(zhǎng),最終形成一張非常復(fù)雜的無(wú)序拓?fù)洌瑢?duì)比數(shù)據(jù)中心組網(wǎng)有著顯著的區(qū)別,這其中的核心原因大概有以下幾點(diǎn):
      · 互聯(lián)網(wǎng)公司分布式架構(gòu)盛行,即Network as a Computer,網(wǎng)絡(luò)已經(jīng)成為業(yè)務(wù)系統(tǒng)的一部分,需要高帶寬支撐業(yè)務(wù)系統(tǒng)的靈活構(gòu)建,而數(shù)據(jù)中心內(nèi)帶寬便宜,廣域網(wǎng)帶寬貴且時(shí)延高,故高帶寬需求和強(qiáng)耦合業(yè)務(wù)模塊都集中在數(shù)據(jù)中心內(nèi),跨廣域網(wǎng)的業(yè)務(wù)模塊間調(diào)用和帶寬使用量會(huì)謹(jǐn)慎很多。這就形成了數(shù)據(jù)中心內(nèi)點(diǎn)到點(diǎn)每服務(wù)器帶寬高,跨廣域網(wǎng)點(diǎn)到點(diǎn)每服務(wù)器帶寬低這一通用現(xiàn)象。
      · 對(duì)于網(wǎng)絡(luò)來(lái)講,帶寬就意為著成本,成本主要由網(wǎng)元硬件成本和鏈路成本構(gòu)成。數(shù)據(jù)中心網(wǎng)元硬件成本占大頭,鏈路成本低;而廣域網(wǎng)硬件成本占小頭,鏈路成本極高。
      · 綜合以上兩點(diǎn),數(shù)據(jù)中心網(wǎng)絡(luò)通常會(huì)使用低成本、高帶寬、特性簡(jiǎn)單的網(wǎng)絡(luò)設(shè)備進(jìn)行構(gòu)建,即“Fast and Stupid Fabric”,以最低的成本去盡可去獲取更高的帶寬。而廣域網(wǎng)的帶寬建設(shè)擴(kuò)容會(huì)非常謹(jǐn)慎,基本上會(huì)按照容量使用情況來(lái)進(jìn)行按需擴(kuò)容,最終形成無(wú)序拓?fù)洹?/span>
      · 關(guān)于流量調(diào)度,數(shù)據(jù)中心內(nèi)部點(diǎn)到點(diǎn)帶寬管理較為粗放,因?yàn)閹捜菀撰@取,且網(wǎng)元特性簡(jiǎn)單,用CLOS架構(gòu)堆高帶寬,每個(gè)訪問(wèn)目的地都只有一個(gè)方向(ECMP視為一個(gè)方向),完全不需要調(diào)度。而廣域網(wǎng)拓?fù)錈o(wú)序,去往一個(gè)目的地有很多條非等價(jià)的路徑可選,當(dāng)訪問(wèn)關(guān)系非常龐大,且這些流量在一個(gè)無(wú)序拓?fù)渲谐休d的時(shí)候,流量調(diào)度就不可避免了。
      上述四點(diǎn)基本描述了廣域網(wǎng)的特點(diǎn),這些都是在做架構(gòu)設(shè)計(jì)的時(shí)候要考慮的最基本的要素,那么下面就著重介紹一下鵝廠“DCI for Elastic Services”這張廣域網(wǎng)的構(gòu)建思路。
鵝廠如何構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)
      廣域鏈路極貴,網(wǎng)元硬件成本占比很低,那么問(wèn)題的關(guān)鍵就變成在獲得最佳的網(wǎng)絡(luò)質(zhì)量的前提下,如何提高鏈路利用率了。拋開(kāi)網(wǎng)絡(luò),任何想提高資源利用率的領(lǐng)域,技術(shù)都是最關(guān)鍵的因素之一,所以我們?cè)趶V域網(wǎng)的技術(shù)應(yīng)用上下足了功夫。試想一下,如果用傳統(tǒng)的路由方法去驅(qū)動(dòng)這張廣域網(wǎng),只會(huì)得到一個(gè)結(jié)果,就是網(wǎng)絡(luò)整體利用率不高,但是經(jīng)常發(fā)生局部擁塞,優(yōu)化團(tuán)隊(duì)每天都在火燒眉毛的擴(kuò)容,這個(gè)結(jié)果就比較諷刺了。而這個(gè)問(wèn)題的原因就是傳統(tǒng)的路由方法不夠智能和感性,感知不到哪里有資源可以利用,而我們?yōu)榱私鉀Q這個(gè)問(wèn)題而選擇的技術(shù)方法是“集中控制的流量工程系統(tǒng)”,主體思路描述如下:
      · 將“路由控制系統(tǒng)”和“路徑控制系統(tǒng)”解耦,路由跟業(yè)務(wù)有關(guān),只能決定目的地在哪里,路徑跟流量走向有關(guān),可以決定源和目的之間可以走哪條鏈路。路由系統(tǒng)算出目的地之后,就交給路徑系統(tǒng)去找到最佳路徑,并準(zhǔn)確送到目的地。這個(gè)思路,跟我們平時(shí)用的互聯(lián)網(wǎng)實(shí)時(shí)導(dǎo)航如出一轍。
路由控制系統(tǒng)由于只需要知道目的地,不關(guān)心怎么去往目的地,整體邏輯非常簡(jiǎn)單,所以我們使用傳統(tǒng)的BGP來(lái)傳遞路由,這一塊不是SDN的,穩(wěn)定且高效。
      · 路徑控制系統(tǒng)則相對(duì)復(fù)雜很多,好比我們使用導(dǎo)航的時(shí)候,目的地只需要輸入一下,而具體路徑則需要根據(jù)最短距離、每條路的堵車情況、紅綠燈多少、是否有限行限號(hào)等諸多因素進(jìn)行判斷并計(jì)算出最佳路徑。所以路徑控制系統(tǒng)也需要“上帝視角”,需要對(duì)全局的拓?fù)?、鏈路?fù)載、時(shí)延、甚至鏈路成本進(jìn)行統(tǒng)一考慮,并經(jīng)過(guò)合理的計(jì)算得出最終的結(jié)果,所以這一塊就要借助SDN的思路來(lái)解決問(wèn)題了。鵝廠的做法是路徑集中控制,控制器將全網(wǎng)需要的信息全部上收,并進(jìn)行集中計(jì)算,最終得出一定數(shù)量的點(diǎn)到點(diǎn)Tunnel供路由控制系統(tǒng)使用,并且控制器要實(shí)時(shí)感知網(wǎng)絡(luò)故障和流量變化的情況來(lái)進(jìn)行全網(wǎng)最佳路徑優(yōu)化,保證所有的訪問(wèn)流量都可以實(shí)時(shí)獲得最好的網(wǎng)絡(luò)質(zhì)量。
      · 傳統(tǒng)的RSVP-TE也是類似的解決方案,不過(guò)稍顯重載和復(fù)雜,包括跨硬件平臺(tái)互通性問(wèn)題、網(wǎng)元設(shè)備復(fù)雜度高成本高、Tunnel數(shù)量太多導(dǎo)致RSVP消息量的壓力與風(fēng)險(xiǎn),這些都給大規(guī)模的TE部署帶來(lái)了一些挑戰(zhàn),但最大的問(wèn)題是,所有路徑都是頭端節(jié)點(diǎn)計(jì)算,不同需求互相搶占資源,達(dá)不到全網(wǎng)整體最優(yōu),即沒(méi)有“上帝視角”。
      · 除此之外,在這張廣域網(wǎng)上還部署了差異化服務(wù),即流量分級(jí),不同等級(jí)的流量享受不同級(jí)別的服務(wù),在嚴(yán)重故障發(fā)生時(shí),高級(jí)別流量?jī)?yōu)先保障最好的網(wǎng)絡(luò)質(zhì)量,低級(jí)別流量可能會(huì)被搶占帶寬而進(jìn)行繞行甚至丟包。這也是廣域網(wǎng)的核心技術(shù)之一,保障重點(diǎn)流量的同時(shí),可以將整體資源利用率提升至很高的水平,形成可靠性和利用率之間的較好平衡。
      
總結(jié)
      
構(gòu)建大型基礎(chǔ)網(wǎng)絡(luò)平臺(tái)是一個(gè)非常需要團(tuán)隊(duì)耐心和意志力的復(fù)雜系統(tǒng)工程,需要非常強(qiáng)的規(guī)劃設(shè)計(jì)能力,但更為重要的是在運(yùn)營(yíng)過(guò)程中,結(jié)合業(yè)務(wù)規(guī)劃的變化、產(chǎn)業(yè)鏈的變化、通信環(huán)境的變化、主要矛盾的變化、綜合成本構(gòu)成的變化等因素,能夠敏捷的跟進(jìn)和調(diào)整。本文涵蓋的內(nèi)容較廣,筆者用較小的篇幅來(lái)講實(shí)現(xiàn)細(xì)節(jié),而較多的內(nèi)容聚焦在鵝廠在做這些工作時(shí)候的一些思路和經(jīng)驗(yàn),希望能給大家?guī)?lái)一點(diǎn)點(diǎn)參考價(jià)值。


向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI