溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

如何實(shí)現(xiàn)Hadoop集群性能優(yōu)化

發(fā)布時(shí)間：2021-11-20 16:51:11 來源：億速云閱讀：226 作者：小新欄目：開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)如何實(shí)現(xiàn)Hadoop集群性能優(yōu)化，小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

背景

分布式的集群通常包含非常多的機(jī)器，由于受到機(jī)架槽位和交換機(jī)網(wǎng)口的限制，通常大型的分布式集群都會(huì)跨好幾個(gè)機(jī)架，由多個(gè)機(jī)架上的機(jī)器共同組成一個(gè)分布式集群。機(jī)架內(nèi)的機(jī)器之間的網(wǎng)絡(luò)速度通常都會(huì)高于跨機(jī)架機(jī)器之間的網(wǎng)絡(luò)速度，并且機(jī)架之間機(jī)器的網(wǎng)絡(luò)通信通常受到上層交換機(jī)間網(wǎng)絡(luò)帶寬的限制。
具體到Hadoop集群，由于Hadoop的HDFS對(duì)數(shù)據(jù)文件的分布式存放是按照分塊block存儲(chǔ)，每個(gè)block會(huì)有多個(gè)副本(默認(rèn)為3)，并且為了數(shù)據(jù)的安全和高效，所以Hadoop默認(rèn)對(duì)3個(gè)副本的存放策略為：

在本地機(jī)器的hdfs目錄下存儲(chǔ)一個(gè)block
在另外一個(gè)rack的某個(gè)datanode上存儲(chǔ)一個(gè)block
在該機(jī)器的同一個(gè)rack下的某臺(tái)機(jī)器上存儲(chǔ)***一個(gè)block
這樣的策略可以保證對(duì)該block所屬文件的訪問能夠優(yōu)先在本rack下找到，如果整個(gè)rack發(fā)生了異常，也可以在另外的rack上找到該block的副本。這樣足夠的高效，并且同時(shí)做到了數(shù)據(jù)的容錯(cuò)。
但是，Hadoop對(duì)機(jī)架的感知并非是自適應(yīng)的，亦即，Hadoop集群分辨某臺(tái)slave機(jī)器是屬于哪個(gè)rack并非是只能的感知的，而是需要Hadoop的管理者人為的告知Hadoop哪臺(tái)機(jī)器屬于哪個(gè)rack，這樣在Hadoop的namenode啟動(dòng)初始化時(shí)，會(huì)將這些機(jī)器與rack的對(duì)應(yīng)信息保存在內(nèi)存中，用來作為對(duì)接下來所有的HDFS的寫塊操作分配datanode列表時(shí)（比如3個(gè)block對(duì)應(yīng)三臺(tái)datanode）的選擇datanode策略，做到Hadoopallocateblock的策略：盡量將三個(gè)副本分布到不同的rack。
接下來的問題就是：通過什么方式能夠告知Hadoopnamenode哪些slaves機(jī)器屬于哪個(gè)rack？以下是配置步驟。

配置

默認(rèn)情況下，Hadoop的機(jī)架感知是沒有被啟用的。所以，在通常情況下，Hadoop集群的HDFS在選機(jī)器的時(shí)候，是隨機(jī)選擇的，也就是說，很有可能在寫數(shù)據(jù)時(shí)，Hadoop將***塊數(shù)據(jù)block1寫到了rack1上，然后隨機(jī)的選擇下將block2寫入到了rack2下，此時(shí)兩個(gè)rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁?，再接下來，在隨機(jī)的情況下，又將block3重新又寫回了rack1，此時(shí)，兩個(gè)rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大，或者往Hadoop推送的數(shù)據(jù)量非常大的時(shí)候，這種情況會(huì)造成rack之間的網(wǎng)絡(luò)流量成倍的上升，成為性能的瓶頸，進(jìn)而影響作業(yè)的性能以至于整個(gè)集群的服務(wù)。
要將Hadoop機(jī)架感知的功能啟用，配置非常簡(jiǎn)單，在namenode所在機(jī)器的Hadoop-site.xml配置文件中配置一個(gè)選項(xiàng)：

<property> <name>topology.script.file.name</name> <value>/path/to/script</value> </property>

這個(gè)配置選項(xiàng)的value指定為一個(gè)可執(zhí)行程序，通常為一個(gè)腳本，該腳本接受一個(gè)參數(shù)，輸出一個(gè)值。接受的參數(shù)通常為某臺(tái)datanode機(jī)器的ip地址，而輸出的值通常為該ip地址對(duì)應(yīng)的datanode所在的rack，例如”/rack1”。Namenode啟動(dòng)時(shí)，會(huì)判斷該配置選項(xiàng)是否為空，如果非空，則表示已經(jīng)用機(jī)架感知的配置，此時(shí)namenode會(huì)根據(jù)配置尋找該腳本，并在接收到每一個(gè)datanode的heartbeat時(shí)，將該datanode的ip地址作為參數(shù)傳給該腳本運(yùn)行，并將得到的輸出作為該datanode所屬的機(jī)架，保存到內(nèi)存的一個(gè)map中。
至于腳本的編寫，就需要將真實(shí)的網(wǎng)絡(luò)拓樸和機(jī)架信息了解清楚后，通過該腳本能夠?qū)C(jī)器的ip地址正確的映射到相應(yīng)的機(jī)架上去。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)如下：

#!/usr/bin/perl-w  usestrict;  my$ip=$ARGV[0];  my$rack_num=3;  my@ip_items=split/\./,$ip;  my$ip_count=0;  foreachmy$i(@ip_items){  $ip_count+=$i;  }  my$rack="/rack".($ip_count%$rack_num);  print"$rack";

關(guān)于“如何實(shí)現(xiàn)Hadoop集群性能優(yōu)化”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，使各位可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，請(qǐng)把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
零基礎(chǔ)如何學(xué)Python
下一篇新聞：
怎么搭建Mysql單機(jī)實(shí)例

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<table id="vkdug"><legend id="vkdug"><ins id="vkdug"></ins></legend></table><samp id="vkdug"><listing id="vkdug"><dl id="vkdug"></dl></listing></samp>

<video id="vkdug"><sup id="vkdug"></sup></video>