您好,登錄后才能下訂單哦!
當沒有配置機架信息時,所有的機器hadoop都默認在同一個默認的機架下,名為“/default-rack”,這種情況下,任何一臺 datanode機器,不管物理上是否屬于同一個機架,都會被認為是在同一個機架下,此時,就很容易出現(xiàn)之前提到的增添機架間網(wǎng)絡負載的情況。在沒有機架信息的情況下,namenode默認將所有的slaves機器全部默認為在/default-rack下
而當Hadoop集群中配置了機架感知信息以后,hadoop在選擇三個datanode時,就會進行相應的判斷:
1.如果上傳本機不是一個datanode,而是一個客戶端,那么就從所有slave機器中隨機選擇一臺datanode作為第一個塊的寫入機器(datanode1)。
注意:而此時如果上傳機器本身就是一個datanode(例如mapreduce作業(yè)中task通過DFSClient向hdfs寫入數(shù)據(jù)的時候),那么就將該datanode本身作為第一個塊寫入機器(datanode1)。
2.隨后在datanode1所屬的機架以外的另外的機架上,隨機的選擇一臺,作為第二個block的寫入datanode機器(datanode2)。
3.在寫第三個block前,先判斷是否前兩個datanode是否是在同一個機架上,如果是在同一個機架,那么就嘗試在另外一個機架上選擇第三個datanode作為寫入機器(datanode3)。而如果datanode1和datanode2沒有在同一個機架上,則在datanode2所在的機架上選擇一臺datanode作為datanode3。
4.得到3個datanode的列表以后,從namenode返回該列表到DFSClient之前,會在namenode端首先根據(jù)該寫入客戶端跟 datanode列表中每個datanode之間的“距離”由近到遠進行一個排序。如果此時DFS寫入端不是datanode,則選擇datanode列表中的第一個排在第一位??蛻舳烁鶕?jù)這個順序有近到遠的進行數(shù)據(jù)塊的寫入。在此,判斷兩個datanode之間“距離”的算法就比較關(guān)鍵,hadoop目前實現(xiàn)如下,以兩個表示datanode的對象DatanodeInfo(node1,node2)為例:
a)首先根據(jù)node1和node2對象分別得出兩個datanode在整個hdfs集群中所處的層次。這里的層次概念需要解釋一下:每個datanode在hdfs集群中所處的層次結(jié)構(gòu)字符串是這樣描述的,假設hdfs的拓撲結(jié)構(gòu)如下:
每個datanode都會對應自己在集群中的位置和層次,如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2,其余類推。得到兩個node的層次后,會沿著每個node所處的拓樸樹中的位置向上查找,如“/rack1/datanode1”的上一級就是“ /rack1”,此時兩個節(jié)點之間的距離加1,兩個node分別同上向上查找,直到找到共同的祖先節(jié)點位置,此時所得的距離數(shù)就用來代表兩個節(jié)點之間的距離。所以,如上圖所示,node1和node2之間的距離就為4.
5.當根據(jù)“距離”排好序的datanode節(jié)點列表返回給DFSClient以后,DFSClient便會創(chuàng)建BlockOutputStream,并將這次block寫入pipeline中的第一個節(jié)點(最近的節(jié)點)。
6.寫完第一個block以后,依次按照datanode列表中的次遠的node進行寫入,直到最后一個block寫入成功,DFSClient返回成功,該block寫入操作結(jié)束。
通過以上策略,namenode在選擇數(shù)據(jù)塊的寫入datanode列表時,就充分考慮到了將block副本分散在不同機架下,并同時盡量的避免了之前描述的過多的網(wǎng)絡開銷。
機架感知策略
默認情況下,hadoop的機架感知是沒有被啟用的。所以,在通常情況下,hadoop集群的HDFS在選機器的時候,是隨機選擇的,也就是說,很有可能在寫數(shù)據(jù)時,hadoop將第一塊數(shù)據(jù)block1寫到了rack1上,然后隨機的選擇下將block2寫入到了rack2下,此時兩個rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁?,再接下來,在隨機的情況下,又將block3重新又寫回了rack1,此時,兩個rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大,或者往hadoop推送的數(shù)據(jù)量非常大的時候,這種情況會造成rack之間的網(wǎng)絡流量成倍的上升,成為性能的瓶頸,進而影響作業(yè)的性能以至于整個集群的服務。
分布式的集群通常包含非常多的機器,由于受到機架槽位和交換機網(wǎng)口的限制,通常大型的分布式集群都會跨好幾個機架,由多個機架上的機器共同組成一個分布式集群。機架內(nèi)的機器之間的網(wǎng)絡速度通常都會高于跨機架機器之間的網(wǎng)絡速度,并且機架之間機器的網(wǎng)絡通信通常受到上層交換機間網(wǎng)絡帶寬的限制。
具體到Hadoop集群,由于hadoop的HDFS對數(shù)據(jù)文件的分布式存放是按照分塊block存儲,每個block會有多個副本(默認為3),并且為了數(shù)據(jù)的安全和高效,所以hadoop默認對3個副本的存放策略為:
第一個block副本放在和client所在的node里(如果client不在集群范圍內(nèi),則這第一個node是隨機選取的)。
第二個副本放置在與第一個節(jié)點不同的機架中的node中(隨機選擇)。
第三個副本似乎放置在與第一個副本所在節(jié)點同一機架的另一個節(jié)點上
如果還有更多的副本就隨機放在集群的node里。
這樣的策略可以保證對該block所屬文件的訪問能夠優(yōu)先在本rack下找到,如果整個rack發(fā)生了異常,也可以在另外的rack上找到該block的副本。這樣足夠的高效,并且同時做到了數(shù)據(jù)的容錯。
但是,hadoop對機架的感知并非是自適應的,亦即,hadoop集群分辨某臺slave機器是屬于哪個rack并非是只能的感知的,而是需要hadoop的管理者人為的告知hadoop哪臺機器屬于哪個rack,這樣在hadoop的namenode啟動初始化時,會將這些機器與rack的對應信息保存在內(nèi)存中,用來作為對接下來所有的HDFS的寫塊操作分配datanode列表時(比如3個block對應三臺datanode)的選擇datanode策略,做到hadoop allocate block的策略:盡量將三個副本分布到不同的rack。
接下來的問題就是:通過什么方式能夠告知hadoop namenode哪些slaves機器屬于哪個rack?以下是配置步驟。
配置
默認情況下,hadoop的機架感知是沒有被啟用的。所以,在通常情況下,hadoop集群的HDFS在選機器的時候,是隨機選擇的,也就是說,很有可能在寫數(shù)據(jù)時,hadoop將第一塊數(shù)據(jù)block1寫到了rack1上,然后隨機的選擇下將block2寫入到了rack2下,此時兩個rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁浚俳酉聛?,在隨機的情況下,又將block3重新又寫回了rack1,此時,兩個rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大,或者往hadoop推送的數(shù)據(jù)量非常大的時候,這種情況會造成rack之間的網(wǎng)絡流量成倍的上升,成為性能的瓶頸,進而影響作業(yè)的性能以至于整個集群的服務。
要將hadoop機架感知的功能啟用,配置非常簡單,在namenode所在機器的hdfs-site.xml配置文件中配置一個選項:
<property> <name>topology.script.file.name</name> <value>/path/to/RackAware.py</value> </property>
這個配置選項的value指定為一個可執(zhí)行程序,通常為一個腳本,該腳本接受一個參數(shù),輸出一個值。接受的參數(shù)通常為某臺datanode機器的ip地址,而輸出的值通常為該ip地址對應的datanode所在的rack,例如”/rack1”。Namenode啟動時,會判斷該配置選項是否為空,如果非空,則表示已經(jīng)用機架感知的配置,此時namenode會根據(jù)配置尋找該腳本,并在接收到每一個datanode的heartbeat時,將該datanode的ip地址作為參數(shù)傳給該腳本運行,并將得到的輸出作為該datanode所屬的機架,保存到內(nèi)存的一個map中。
至于腳本的編寫,就需要將真實的網(wǎng)絡拓樸和機架信息了解清楚后,通過該腳本能夠?qū)C器的ip地址正確的映射到相應的機架上去。一個簡單的實現(xiàn)如下:
#!/usr/bin/python #-*-coding:UTF-8 -*- import sys rack = {"hadoopnode-176.tj":"rack1", "hadoopnode-178.tj":"rack1", "hadoopnode-179.tj":"rack1", "hadoopnode-180.tj":"rack1", "hadoopnode-186.tj":"rack2", "hadoopnode-187.tj":"rack2", "hadoopnode-188.tj":"rack2", "hadoopnode-190.tj":"rack2", "192.168.1.15":"rack1", "192.168.1.17":"rack1", "192.168.1.18":"rack1", "192.168.1.19":"rack1", "192.168.1.25":"rack2", "192.168.1.26":"rack2", "192.168.1.27":"rack2", "192.168.1.29":"rack2", } if __name__=="__main__": print "/" + rack.get(sys.argv[1],"rack0")
由于沒有找到確切的文檔說明 到底是主機名還是ip地址會被傳入到腳本,所以在腳本中最好兼容主機名和ip地址,如果機房架構(gòu)比較復雜的話,腳本可以返回如:/dc1/rack1 類似的字符串。
執(zhí)行命令:chmod +x RackAware.py
重啟namenode,如果配置成功,namenode啟動日志中會輸出:
2011-12-21 14:28:44,495 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /rack1/192.168.1.15:50010
這里基于一個網(wǎng)絡拓撲案例,介紹在復雜的網(wǎng)絡拓撲中hadoop集群每臺機器之間的距離
有了機架感知,NameNode就可以畫出上圖所示的datanode網(wǎng)絡拓撲圖。D1,R1都是交換機,最底層是datanode。則H1的rackid=/D1/R1/H1,H1的parent是R1,R1的是D1。這些rackid信息可以通過topology.script.file.name配置。有了這些rackid信息就可以計算出任意兩臺datanode之間的距離。
distance(/D1/R1/H1,/D1/R1/H1)=0 相同的datanode distance(/D1/R1/H1,/D1/R1/H2)=2 同一rack下的不同datanode distance(/D1/R1/H1,/D1/R1/H4)=4 同一IDC下的不同datanode distance(/D1/R1/H1,/D2/R3/H7)=6 不同IDC下的datanode
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。