溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hadoop3.x有哪些新特性

發(fā)布時間:2021-12-10 11:29:23 來源:億速云 閱讀:140 作者:iii 欄目:云計算

本篇內(nèi)容介紹了“Hadoop3.x有哪些新特性”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!

JDK

  在Hadoop 3中,所有的Hadoop JAR包編譯的環(huán)境都是基于Java8來完成的,所有如果仍然使用的是Java 7或者更低的版本,你可能需要升級到Java 8才能正常的運行Hadoop3。如下圖所示:

Hadoop3.x有哪些新特性

EC技術(shù)

  首先,我們先來了解一下什么是Erasure Encoding。如下圖所示:

Hadoop3.x有哪些新特性

  一般來說,在存儲系統(tǒng)中,EC技術(shù)主要用于廉價磁盤冗余陣列,即RAID。如上圖,RAID通過Stripping實現(xiàn)EC技術(shù),其中邏輯順序數(shù)據(jù)(比如:文件)被劃分成更小的單元(比如:位、字節(jié)或者是塊),并將連續(xù)單元存儲在不同的磁盤上。

  然后,對原始數(shù)據(jù)單元的每個Stripe,計算并存儲一定數(shù)量的奇偶校驗單位。這個過程稱之為編碼,通過基于有效數(shù)據(jù)單元和奇偶校驗單元的解碼計算,可以恢復(fù)任意Stripe單元的錯誤。當(dāng)我們想到了擦除編碼的時候,我們可以先來了解一下在Hadoop2中復(fù)制的早期場景。如下圖所示:

Hadoop3.x有哪些新特性

  HDFS默認情況下,它的備份系數(shù)是3,一個原始數(shù)據(jù)塊和其他2個副本。其中2個副本所需要的存儲開銷各站100%,這樣使得200%的存儲開銷,會消耗其他資源,比如網(wǎng)絡(luò)帶寬。然而,在正常操作中很少訪問具有低IO活動的冷數(shù)據(jù)集的副本,但是仍然消耗與原始數(shù)據(jù)集相同的資源量。

  對于EC技術(shù),即擦除編碼存儲數(shù)據(jù)和提供容錯空間較小的開銷相比,HDFS復(fù)制,EC技術(shù)可以代替復(fù)制,這將提供相同的容錯機制,同時還減少了存儲開銷。如下圖所示:

Hadoop3.x有哪些新特性

  EC和HDFS的整合可以保持與提供存儲效率相同的容錯。例如,一個副本系數(shù)為3,要復(fù)制文件的6個塊,需要消耗6*3=18個塊的磁盤空間。但是,使用EC技術(shù)(6個數(shù)據(jù)塊,3個奇偶校驗塊)來部署,它只需要消耗磁盤空間的9個塊(6個數(shù)據(jù)塊+3個奇偶校驗塊)。這些與原先的存儲空間相比較,節(jié)省了50%的存儲開銷。

  由于擦除編碼需要在執(zhí)行遠程讀取時,對數(shù)據(jù)重建帶來額外的開銷,因此他通常用于存儲不太頻繁訪問的數(shù)據(jù)。在部署EC之前,用戶應(yīng)該考慮EC的所有開銷,比如存儲、網(wǎng)絡(luò)、CPU等。

YARN的時間線V.2服務(wù)

   Hadoop引入YARN Timeline Service v.2是為了解決兩個主要問題:

  1. 提高時間線服務(wù)的可伸縮性和可靠性;

  2. 通過引入流和聚合來增強可用性

下面首先,我們來剖析一下它伸縮性。

1  伸縮性

  YARN V1僅限于讀寫單個實例,不能很好的擴展到小集群之外。YARN V2使用了更具有伸縮性的分布式體系架構(gòu)和可擴展的后端存儲,它將數(shù)據(jù)的寫入與數(shù)據(jù)的讀取進行了分離。并使用分布式收集器,本質(zhì)上是每個YARN應(yīng)用的收集器。讀則是獨立的實例,專門通過REST API服務(wù)來查詢

2  可用性

  對于可用性的改進,在很多情況下,用戶對流或者YARN應(yīng)用的邏輯組的信息比較感興趣。啟動一組或者一系列的YARN應(yīng)用程序來完成邏輯應(yīng)用是很常見的。如下圖所示:

Hadoop3.x有哪些新特性

3 架構(gòu)體系

   YARN時間線服務(wù)V2采用了一組收集器寫數(shù)據(jù)到后端進行存儲。收集器被分配并與它們專用的應(yīng)用程序主機進行協(xié)作,如下圖所示,屬于該應(yīng)用程序的所有數(shù)據(jù)都被發(fā)送到應(yīng)用程序時間軸的收集器中,但是資源管理器時間軸收集器除外。

   Hadoop3.x有哪些新特性

  對于給定的應(yīng)用程序,應(yīng)用程序可以將數(shù)據(jù)寫入同一時間軸收集器中。此外,為應(yīng)用程序運行容器的其他節(jié)點的節(jié)點管理器,還會向運行應(yīng)用程序主節(jié)點的時間軸收集器寫入數(shù)據(jù)。資源管理器還維護自己的時間手機線收集器,它只發(fā)布YARN的通用生命周期事件,以保持其寫入量合理。時間的讀取器是單獨的守護進程從收集器中分離出來的,它旨在服務(wù)于REST API查詢操作。

“Hadoop3.x有哪些新特性”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI