Hadoop之機架感知

發(fā)布時間：2020-07-19 13:37:14 來源：網(wǎng)絡閱讀：969 作者：wangwei4078 欄目：大數(shù)據(jù)

背景

當沒有配置機架信息時，所有的機器hadoop都默認在同一個默認的機架下，名為“/default-rack”，這種情況下，任何一臺 datanode機器，不管物理上是否屬于同一個機架，都會被認為是在同一個機架下，此時，就很容易出現(xiàn)之前提到的增添機架間網(wǎng)絡負載的情況。在沒有機架信息的情況下，namenode默認將所有的slaves機器全部默認為在/default-rack下

　　而當Hadoop集群中配置了機架感知信息以后，hadoop在選擇三個datanode時，就會進行相應的判斷：

　　1.如果上傳本機不是一個datanode，而是一個客戶端，那么就從所有slave機器中隨機選擇一臺datanode作為第一個塊的寫入機器(datanode1)。

　注意：而此時如果上傳機器本身就是一個datanode（例如mapreduce作業(yè)中task通過DFSClient向hdfs寫入數(shù)據(jù)的時候），那么就將該datanode本身作為第一個塊寫入機器(datanode1)。

　　2.隨后在datanode1所屬的機架以外的另外的機架上，隨機的選擇一臺，作為第二個block的寫入datanode機器(datanode2)。

　　3.在寫第三個block前，先判斷是否前兩個datanode是否是在同一個機架上，如果是在同一個機架，那么就嘗試在另外一個機架上選擇第三個datanode作為寫入機器(datanode3)。而如果datanode1和datanode2沒有在同一個機架上，則在datanode2所在的機架上選擇一臺datanode作為datanode3。

　　4.得到3個datanode的列表以后，從namenode返回該列表到DFSClient之前，會在namenode端首先根據(jù)該寫入客戶端跟 datanode列表中每個datanode之間的“距離”由近到遠進行一個排序。如果此時DFS寫入端不是datanode，則選擇datanode列表中的第一個排在第一位?？蛻舳烁鶕?jù)這個順序有近到遠的進行數(shù)據(jù)塊的寫入。在此，判斷兩個datanode之間“距離”的算法就比較關(guān)鍵，hadoop目前實現(xiàn)如下，以兩個表示datanode的對象DatanodeInfo(node1,node2)為例:

　　a)首先根據(jù)node1和node2對象分別得出兩個datanode在整個hdfs集群中所處的層次。這里的層次概念需要解釋一下：每個datanode在hdfs集群中所處的層次結(jié)構(gòu)字符串是這樣描述的，假設hdfs的拓撲結(jié)構(gòu)如下：

　　每個datanode都會對應自己在集群中的位置和層次，如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2，其余類推。得到兩個node的層次后，會沿著每個node所處的拓樸樹中的位置向上查找，如“/rack1/datanode1”的上一級就是“ /rack1”，此時兩個節(jié)點之間的距離加1，兩個node分別同上向上查找，直到找到共同的祖先節(jié)點位置，此時所得的距離數(shù)就用來代表兩個節(jié)點之間的距離。所以，如上圖所示，node1和node2之間的距離就為4.

　　5.當根據(jù)“距離”排好序的datanode節(jié)點列表返回給DFSClient以后，DFSClient便會創(chuàng)建BlockOutputStream，并將這次block寫入pipeline中的第一個節(jié)點（最近的節(jié)點）。

　　6.寫完第一個block以后，依次按照datanode列表中的次遠的node進行寫入，直到最后一個block寫入成功，DFSClient返回成功，該block寫入操作結(jié)束。

　　通過以上策略，namenode在選擇數(shù)據(jù)塊的寫入datanode列表時，就充分考慮到了將block副本分散在不同機架下，并同時盡量的避免了之前描述的過多的網(wǎng)絡開銷。

機架感知策略

默認情況下，hadoop的機架感知是沒有被啟用的。所以，在通常情況下，hadoop集群的HDFS在選機器的時候，是隨機選擇的，也就是說，很有可能在寫數(shù)據(jù)時，hadoop將第一塊數(shù)據(jù)block1寫到了rack1上，然后隨機的選擇下將block2寫入到了rack2下，此時兩個rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁?，再接下來，在隨機的情況下，又將block3重新又寫回了rack1，此時，兩個rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大，或者往hadoop推送的數(shù)據(jù)量非常大的時候，這種情況會造成rack之間的網(wǎng)絡流量成倍的上升，成為性能的瓶頸，進而影響作業(yè)的性能以至于整個集群的服務。

分布式的集群通常包含非常多的機器，由于受到機架槽位和交換機網(wǎng)口的限制，通常大型的分布式集群都會跨好幾個機架，由多個機架上的機器共同組成一個分布式集群。機架內(nèi)的機器之間的網(wǎng)絡速度通常都會高于跨機架機器之間的網(wǎng)絡速度，并且機架之間機器的網(wǎng)絡通信通常受到上層交換機間網(wǎng)絡帶寬的限制。

具體到Hadoop集群，由于hadoop的HDFS對數(shù)據(jù)文件的分布式存放是按照分塊block存儲，每個block會有多個副本(默認為3)，并且為了數(shù)據(jù)的安全和高效，所以hadoop默認對3個副本的存放策略為：

第一個block副本放在和client所在的node里（如果client不在集群范圍內(nèi)，則這第一個node是隨機選取的）。

第二個副本放置在與第一個節(jié)點不同的機架中的node中（隨機選擇）。

第三個副本似乎放置在與第一個副本所在節(jié)點同一機架的另一個節(jié)點上

如果還有更多的副本就隨機放在集群的node里。

這樣的策略可以保證對該block所屬文件的訪問能夠優(yōu)先在本rack下找到，如果整個rack發(fā)生了異常，也可以在另外的rack上找到該block的副本。這樣足夠的高效，并且同時做到了數(shù)據(jù)的容錯。

但是，hadoop對機架的感知并非是自適應的，亦即，hadoop集群分辨某臺slave機器是屬于哪個rack并非是只能的感知的，而是需要hadoop的管理者人為的告知hadoop哪臺機器屬于哪個rack，這樣在hadoop的namenode啟動初始化時，會將這些機器與rack的對應信息保存在內(nèi)存中，用來作為對接下來所有的HDFS的寫塊操作分配datanode列表時（比如3個block對應三臺datanode）的選擇datanode策略，做到hadoop allocate block的策略：盡量將三個副本分布到不同的rack。
接下來的問題就是：通過什么方式能夠告知hadoop namenode哪些slaves機器屬于哪個rack？以下是配置步驟。

配置

默認情況下，hadoop的機架感知是沒有被啟用的。所以，在通常情況下，hadoop集群的HDFS在選機器的時候，是隨機選擇的，也就是說，很有可能在寫數(shù)據(jù)時，hadoop將第一塊數(shù)據(jù)block1寫到了rack1上，然后隨機的選擇下將block2寫入到了rack2下，此時兩個rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁浚俳酉聛?，在隨機的情況下，又將block3重新又寫回了rack1，此時，兩個rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大，或者往hadoop推送的數(shù)據(jù)量非常大的時候，這種情況會造成rack之間的網(wǎng)絡流量成倍的上升，成為性能的瓶頸，進而影響作業(yè)的性能以至于整個集群的服務。
要將hadoop機架感知的功能啟用，配置非常簡單，在namenode所在機器的hdfs-site.xml配置文件中配置一個選項：

<property>
  <name>topology.script.file.name</name>
  <value>/path/to/RackAware.py</value>
</property>

這個配置選項的value指定為一個可執(zhí)行程序，通常為一個腳本，該腳本接受一個參數(shù)，輸出一個值。接受的參數(shù)通常為某臺datanode機器的ip地址，而輸出的值通常為該ip地址對應的datanode所在的rack，例如”/rack1”。Namenode啟動時，會判斷該配置選項是否為空，如果非空，則表示已經(jīng)用機架感知的配置，此時namenode會根據(jù)配置尋找該腳本，并在接收到每一個datanode的heartbeat時，將該datanode的ip地址作為參數(shù)傳給該腳本運行，并將得到的輸出作為該datanode所屬的機架，保存到內(nèi)存的一個map中。

至于腳本的編寫，就需要將真實的網(wǎng)絡拓樸和機架信息了解清楚后，通過該腳本能夠?qū)C器的ip地址正確的映射到相應的機架上去。一個簡單的實現(xiàn)如下：

#!/usr/bin/python  
#-*-coding:UTF-8 -*-  
import sys  
  
rack = {"hadoopnode-176.tj":"rack1",  
        "hadoopnode-178.tj":"rack1",  
        "hadoopnode-179.tj":"rack1",  
        "hadoopnode-180.tj":"rack1",  
        "hadoopnode-186.tj":"rack2",  
        "hadoopnode-187.tj":"rack2",  
        "hadoopnode-188.tj":"rack2",  
        "hadoopnode-190.tj":"rack2",  
        "192.168.1.15":"rack1",  
        "192.168.1.17":"rack1",  
        "192.168.1.18":"rack1",  
        "192.168.1.19":"rack1",  
        "192.168.1.25":"rack2",  
        "192.168.1.26":"rack2",  
        "192.168.1.27":"rack2",  
        "192.168.1.29":"rack2",  
        }  
  
  
if __name__=="__main__":  
    print "/" + rack.get(sys.argv[1],"rack0")

由于沒有找到確切的文檔說明到底是主機名還是ip地址會被傳入到腳本，所以在腳本中最好兼容主機名和ip地址，如果機房架構(gòu)比較復雜的話，腳本可以返回如：/dc1/rack1 類似的字符串。

執(zhí)行命令：chmod +x RackAware.py

重啟namenode,如果配置成功，namenode啟動日志中會輸出：

2011-12-21 14:28:44,495 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /rack1/192.168.1.15:50010

網(wǎng)絡拓撲機器之間的距離

這里基于一個網(wǎng)絡拓撲案例，介紹在復雜的網(wǎng)絡拓撲中hadoop集群每臺機器之間的距離

Hadoop之機架感知

有了機架感知，NameNode就可以畫出上圖所示的datanode網(wǎng)絡拓撲圖。D1,R1都是交換機，最底層是datanode。則H1的rackid=/D1/R1/H1，H1的parent是R1，R1的是D1。這些rackid信息可以通過topology.script.file.name配置。有了這些rackid信息就可以計算出任意兩臺datanode之間的距離。

distance(/D1/R1/H1,/D1/R1/H1)=0  相同的datanode
distance(/D1/R1/H1,/D1/R1/H2)=2  同一rack下的不同datanode
distance(/D1/R1/H1,/D1/R1/H4)=4  同一IDC下的不同datanode
distance(/D1/R1/H1,/D2/R3/H7)=6  不同IDC下的datanode

向AI問一下細節(jié)

Hadoop之機架感知

背景

網(wǎng)絡拓撲機器之間的距離

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽