溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Hadoop3.x版本的新特性有哪些

發(fā)布時間:2021-12-04 15:54:08 來源:億速云 閱讀:395 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容介紹了“Hadoop3.x版本的新特性有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

Apache Hadoop 3.x

Apache Hadoop 3.x在以前的主要發(fā)行版本(hadoop-2.x)上進行了許多重大改進。 

1. 最低要求的Java版本從Java 7增加到Java 8

現(xiàn)在,已針對Java 8的運行時版本編譯了所有Hadoop JAR。仍在使用Java 7或更低版本的用戶必須升級到Java 8。 

2. 支持HDFS中的糾刪碼

糾刪碼是一種持久存儲數(shù)據(jù)的方法,可節(jié)省大量空間。與標準HDFS副本機制的3倍開銷相比,像Reed-Solomon(10,4) 這樣的標準編碼的空間開銷是1.4倍。

由于糾刪碼在重建期間會帶來額外的開銷,并且大多數(shù)情況下會執(zhí)行遠程讀取,因此傳統(tǒng)上已將其用于存儲較冷,訪問頻率較低的數(shù)據(jù)。

在部署此功能時應考慮糾刪碼機制的網(wǎng)絡和CPU開銷。

關于HDFS中糾刪碼更詳細的介紹,可查看我之前寫的這篇文章: 深入剖析 HDFS 3.x 新特性-糾刪碼 

3. Shell腳本重寫

Hadoop Shell腳本已被重寫,以修復許多長期存在的錯誤并包括一些新功能。Hadoop的開發(fā)人員盡管一直在尋求兼容性,但是某些更改可能會破壞現(xiàn)有的安裝。 

4. MapReduce 任務本地優(yōu)化

MapReduce 增加了對 map 輸出收集器的本地執(zhí)行的支持,對于 shuffle 密集型工作,這可以使性能提高30%或更多。 

5. 支持兩個以上的 NameNode

在之前的版本中,HDFS的高可用最多支持兩個NameNode。在HDFS 3.x 版本中,通過將編輯復制到法定數(shù)量的三個JournalNode,該體系結構能夠容忍系統(tǒng)中任何一個節(jié)點的故障。

但是,某些部署需要更高的容錯度。這個新特性啟用了這一點,該功能允許用戶運行多個備用NameNode。例如,通過配置三個NameNode和五個JournalNode,群集可以忍受兩個節(jié)點的故障,而不僅僅是一個節(jié)點的故障。 

6. 多個服務的默認端口已更改

以前,多個Hadoop服務的默認端口在Linux臨時端口范圍內(nèi)(32768-61000)。這意味著在啟動時,服務有時會由于與另一個應用程序的沖突而無法綁定到端口。

這些沖突的端口已移出臨時范圍,具體的端口更改如下:

NameNode 的端口: 50070 --> 9870, 8020 --> 9820, 50470 --> 9871;
Secondary NameNode 的端口: 50091 --> 9869, 50090 --> 9868;
DataNode 的端口: 50020 --> 9867, 50010 --> 9866, 50475 --> 9865, 50075 --> 9864;
Hadoop KMS 的端口: 16000 --> 9600(HBase的HMaster端口號與Hadoop KMS端口號沖突。兩者都使用16000,因此 Hadoop KMS 更改為9600)。 

7. 支持Microsoft Azure數(shù)據(jù)湖和阿里云對象存儲系統(tǒng)文件系統(tǒng)連接器

Hadoop現(xiàn)在支持與Microsoft Azure數(shù)據(jù)湖和Aliyun對象存儲系統(tǒng)集成,作為與Hadoop兼容的替代文件系統(tǒng)。

8. 數(shù)據(jù)內(nèi)節(jié)點平衡器

單個DataNode可管理多個磁盤。在正常的寫操作過程中,磁盤將被均勻填充。但是,添加或替換磁盤可能會導致DataNode內(nèi)部出現(xiàn)嚴重偏差。原有的HDFS平衡器無法處理這種情況。新版本的HDFS中有平衡功能處理,該功能通過hdfs diskbalancer CLI調(diào)用。 

9. 基于HDFS路由器的聯(lián)合

基于HDFS路由器的聯(lián)合添加了一個RPC路由層,該層提供了多個HDFS名稱空間的聯(lián)合視圖。這簡化了現(xiàn)有HDFS客戶端對聯(lián)合群集的訪問。 

10. YARN資源類型

YARN資源模型已被通用化,以支持用戶定義的CPU和內(nèi)存以外的可計數(shù)資源類型。例如,集群管理員可以定義資源,例如GPU,軟件許可證或本地連接的存儲。然后可以根據(jù)這些資源的可用性來調(diào)度YARN任務。

“Hadoop3.x版本的新特性有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI