溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hadoop集群環(huán)境下網(wǎng)絡(luò)架構(gòu)的設(shè)計與優(yōu)化方法

發(fā)布時間:2021-12-10 10:05:23 來源:億速云 閱讀:134 作者:iii 欄目:云計算

本篇內(nèi)容主要講解“Hadoop集群環(huán)境下網(wǎng)絡(luò)架構(gòu)的設(shè)計與優(yōu)化方法”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Hadoop集群環(huán)境下網(wǎng)絡(luò)架構(gòu)的設(shè)計與優(yōu)化方法”吧!

Hadoop集群環(huán)境下網(wǎng)絡(luò)架構(gòu)的設(shè)計與優(yōu)化方法

大數(shù)據(jù)Hadoop環(huán)境網(wǎng)絡(luò)特性Hadoop 集群中的各節(jié)點通過網(wǎng)絡(luò)連接起來,而且MapReduce 中的以下過程會在網(wǎng)絡(luò)中傳輸數(shù)據(jù)。

(1)寫數(shù)據(jù)。當向HDFS 寫入初始數(shù)據(jù)或者大塊數(shù)據(jù)時,會發(fā)生數(shù)據(jù)寫入過程。寫入的數(shù)據(jù)塊需要備份到其他節(jié)點,需要在網(wǎng)絡(luò)中傳輸這些數(shù)據(jù)。

(2)作業(yè)執(zhí)行。

① Map 階段。在算法的Map 階段,幾乎不需要在網(wǎng)絡(luò)中傳輸數(shù)據(jù)。在Map 開始階段,當HDFS 數(shù)據(jù)沒有本地性(數(shù)據(jù)塊不在本地存儲,需要從其他節(jié)點拷貝)時,才需在網(wǎng)絡(luò)中傳輸數(shù)據(jù)。

② Shuffle 階段。這是作業(yè)執(zhí)行中在網(wǎng)絡(luò)中傳輸數(shù)據(jù)的階段,數(shù)據(jù)傳輸?shù)某潭纫蕾囉谧鳂I(yè)。Mapper 階段的輸出內(nèi)容,會在這個時候傳輸?shù)絉educer 進行排序。

③ Reduce 階段。因為Reducer 需要的數(shù)據(jù)已經(jīng)從Shuffle 階段傳來,所以此階段不需要網(wǎng)絡(luò)傳輸數(shù)據(jù)。

④ Output 復(fù)制。MapReduce 的輸出作為文件存儲在HDFS 上。當將輸出結(jié)果寫入HDFS 時,產(chǎn)生的備份會在網(wǎng)絡(luò)中傳輸。

(3)讀數(shù)據(jù)。當應(yīng)用程序如網(wǎng)站、索引或者SQL數(shù)據(jù)庫從HDFS 讀取數(shù)據(jù)時,會發(fā)生數(shù)據(jù)讀取的過程。另外,網(wǎng)絡(luò)對Hadoop 的控制層非常重要,比如HDFS 的信令和運維操作,以及MapReduce 架構(gòu)都受到網(wǎng)絡(luò)影響。

五種網(wǎng)絡(luò)特性

思科公司針對Hadoop 集群環(huán)境下的網(wǎng)絡(luò)環(huán)境進行了一個測試,測試結(jié)果顯示,一個有彈性的網(wǎng)絡(luò)對Hadoop 集群非常重要;對Hadoop 集群具有重要影響的網(wǎng)絡(luò)特性,以其影響程度從大到小依次排序為:網(wǎng)絡(luò)可用性和彈性、Burst 流量突發(fā)處理和隊列深度、網(wǎng)絡(luò)過載比、Datanode 網(wǎng)絡(luò)接入和網(wǎng)絡(luò)延遲。

(1)網(wǎng)絡(luò)可用性和彈性。要部署一個高冗余性和可擴展的網(wǎng)絡(luò),支持Hadoop 集群的增長。在Datanode之間部署多條鏈路的技術(shù)要比那些有單點失效或兩點失效的技術(shù)要好。交換機和路由器已經(jīng)在業(yè)界被證明能夠為服務(wù)器提供網(wǎng)絡(luò)可用性。

(2)Burst 流量突發(fā)處理和隊列深度。HDFS 的有些操作和MapReduce Job 會產(chǎn)生突發(fā)流量,如向HDFS加載文件或者把結(jié)果文件寫入HDFS 都需要通過網(wǎng)絡(luò)。網(wǎng)絡(luò)如果處理不了突發(fā)流量,就會丟棄數(shù)據(jù)包,所以適當?shù)木彺婵梢跃徑馔话l(fā)流量的影響。確保選擇使用緩存和隊列的交換機和路由器,來有效處理流量突發(fā)。

(3)網(wǎng)絡(luò)過載比。一個好的網(wǎng)絡(luò)設(shè)計需要考慮到網(wǎng)絡(luò)中關(guān)鍵節(jié)點的擁塞情況。一個ToR 交換機從服務(wù)器接收20Gbps 的數(shù)據(jù),但是只有2 個1Gbps 的上聯(lián)口會造成數(shù)據(jù)包丟失(10:1 的過載比),嚴重影響集群的性能。過度配置的網(wǎng)絡(luò)的價格又非常昂貴。一般情況下,服務(wù)器接入層可以接受的過載比在4:1 左右,接入層和匯聚層之間,或者核心層的過載比在2:1左右。

(4)Datanode 網(wǎng)絡(luò)接入。要基于集群工作負荷來推薦帶寬配置。一般集群中的節(jié)點有1 到2 根1GB 的上聯(lián)口。是否選擇10Gbps 的服務(wù)器要權(quán)衡價格和性能。

(5)網(wǎng)絡(luò)延遲。交換機和路由器延遲的變化對集群性能的影響有限。相比網(wǎng)絡(luò)延遲,應(yīng)用層延遲對任務(wù)的影響比例更大。但是網(wǎng)絡(luò)的延遲會對應(yīng)用系統(tǒng)造成潛在的影響,例如造成不必要的應(yīng)用切換等。

到此,相信大家對“Hadoop集群環(huán)境下網(wǎng)絡(luò)架構(gòu)的設(shè)計與優(yōu)化方法”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI