溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

HPCC 和 Hadoop 的區(qū)別是什么

發(fā)布時(shí)間:2021-07-06 18:16:54 來(lái)源:億速云 閱讀:176 作者:Leah 欄目:云計(jì)算

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)HPCC 和 Hadoop 的區(qū)別是什么,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

硬件環(huán)境

通常使用基于Intel或AMD CPU的刀片服務(wù)器來(lái)構(gòu)建集群系統(tǒng),為了降低成本可以使用已經(jīng)停止銷售的過(guò)時(shí)硬件。節(jié)點(diǎn)有本地內(nèi)存和硬盤,通過(guò)高速交換機(jī)相連(通常為千兆交換機(jī)),如果 集群節(jié)點(diǎn)很多,也可以使用分層交換。集群內(nèi)的節(jié)點(diǎn)是對(duì)等的(所有資源可以簡(jiǎn)化為相同配置),但這一點(diǎn)并非必須。

操作系統(tǒng)

Linux或windows

系統(tǒng)配置

實(shí)現(xiàn)HPCC集群用兩種配置:數(shù)據(jù)加工(Thor)類似于Hadoop的MapReduce集群;數(shù)據(jù)分發(fā)引擎(Roxie)提供了獨(dú)立的高性能在 線查詢 處理功能和數(shù)據(jù)倉(cāng)庫(kù)功能。兩種配置都可以用做分布式文件系統(tǒng),不過(guò)它們?cè)噲D提高性能的實(shí)現(xiàn)方法不同。HPCC環(huán)境通常由兩種配置類型的多個(gè)集群組成。雖然 每個(gè)集群上的文件系統(tǒng)相互獨(dú)立,但是一個(gè)集群可以訪問(wèn)同一環(huán)境下位于其他集群上的文件系統(tǒng)內(nèi)的文件。

Hadoop系統(tǒng)軟件使用MapReduce處理范例實(shí)現(xiàn)了集群。這樣的集群也可以用做運(yùn)行HDFS的分布式文件系統(tǒng)。其他的功能都處Hadoop的MapReduce和Hbase,Hive等文件系統(tǒng)軟件之上。

授權(quán)和維護(hù)費(fèi)用

HPCC:社團(tuán)版本是免費(fèi)的。企業(yè)版授權(quán)費(fèi)用目前取決于集群大小和系統(tǒng)配置的類型。

Hadoop:免費(fèi),不過(guò)有多個(gè)廠商提供不同的付費(fèi)的維護(hù)服務(wù)。

核心軟件

HPCC:如果使用了Thor配置,那么核心軟件包括安裝在集群每個(gè)節(jié)點(diǎn)上的操作系統(tǒng)和多種服務(wù),它們來(lái)實(shí)現(xiàn)任務(wù)的執(zhí)行和分布式文件系統(tǒng)的訪問(wèn)。名 字為 Dali的獨(dú)立服務(wù)器提供文件系統(tǒng)名字服務(wù)和管理HPCC環(huán)境下任務(wù)的工作單元。Thor集群可以配置為一個(gè)主節(jié)點(diǎn)和多個(gè)備用節(jié)點(diǎn)。Roxie集群是一個(gè) 對(duì)等連接的集群,它的每個(gè)節(jié)點(diǎn)可運(yùn)行服務(wù)器和執(zhí)行查詢以及密鑰和文件處理的任務(wù)代理。Roxie集群的文件系統(tǒng)使用分布式B+樹來(lái)存儲(chǔ)索引和數(shù)據(jù),并提供 對(duì)加密數(shù)據(jù)的訪問(wèn)。要對(duì)Thor和Roxie集群進(jìn)行操作的話,附加的中間件組件是不可或缺的。

Hadoop:核心軟件包括操作系統(tǒng)、Hadoop的MapReduce集群和HDFS軟件。每個(gè)備用節(jié)點(diǎn)包括任務(wù)跟蹤服務(wù)和數(shù)據(jù)節(jié)點(diǎn)服務(wù)。主節(jié)點(diǎn) 包括任 務(wù)追蹤服務(wù),任務(wù)追蹤服務(wù)可配置為獨(dú)立的硬件節(jié)點(diǎn)或者運(yùn)行在一個(gè)備用硬件節(jié)點(diǎn)。類似地,對(duì)HDFS來(lái)說(shuō),要提供名字服務(wù)的話,主名字節(jié)點(diǎn)服務(wù)也是必須的, 并且可在一個(gè)備用的節(jié)點(diǎn)或者一個(gè)獨(dú)立的節(jié)點(diǎn)之上運(yùn)行這個(gè)服務(wù)。

中間件

HPCC:中間件包括在MySQL服務(wù)器上實(shí)現(xiàn)的ECL代碼倉(cāng)庫(kù)、編譯ECL程序和查詢的ECL服務(wù)器、ECL代理即Thor集群上管理任務(wù)執(zhí)行的 客戶端 程序,ESP服務(wù)器(企業(yè)服務(wù)平臺(tái)),它提供認(rèn)證、日志記錄、安全以及執(zhí)行任務(wù)和提供Web服務(wù)環(huán)境的其他服務(wù),Dali服務(wù)器,它可用作存儲(chǔ)任務(wù)工作單 元信息的系統(tǒng)數(shù)據(jù)和為分布式文件系統(tǒng)提供名字服務(wù)。中間件可以靈活地運(yùn)行在一個(gè)到幾個(gè)節(jié)點(diǎn)上。多個(gè)這樣的服務(wù)器可以提供冗余備份和提高性能。

Hadoop:沒(méi)有中間件??蛻舳塑浖梢灾苯犹峤蝗蝿?wù)給集群主節(jié)點(diǎn)的任務(wù)追蹤器。作為服務(wù)器運(yùn)行的Hadoop工作流調(diào)度器(HWS)的管理需要多個(gè)MapReduce序列的任務(wù)的功能正在開發(fā)中。

系統(tǒng)工具

HPCC包括用于管理、維護(hù)和監(jiān)視HPCC配置和環(huán)境的客戶端和操作工具套件。這個(gè)套件包括ECL IDE、程序開發(fā)環(huán)境、屬性遷移工具、分布式文件應(yīng)用(DFU)、環(huán)境配置應(yīng)用和Roxie配置應(yīng)用。命令行版本也可用。ECLWatch是一個(gè)監(jiān)控 HPCC環(huán)境的基于Web的應(yīng)用程序,它包括隊(duì)列管理,分布式文件系統(tǒng)管理、任務(wù)監(jiān)視和系統(tǒng)性能監(jiān)視工具。其他工具是通過(guò)Web服務(wù)接口提供的。

Hadoop:dfsadmin工具提供文件系統(tǒng)的狀態(tài)信息;fsck是一個(gè)檢查HDFS上文件的健康性的應(yīng)用;數(shù)據(jù)節(jié)點(diǎn)塊掃描器定時(shí)地驗(yàn)證數(shù)據(jù)節(jié) 點(diǎn)上所 有的存儲(chǔ)塊;平衡器根據(jù)需要把超負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上的阻塞重新發(fā)布到低負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上。MapReduce的WEB用戶接口包括顯示正在運(yùn)行的和已經(jīng)完成 的任務(wù)信息的任務(wù)追蹤器頁(yè)面;對(duì)一個(gè)具體的任務(wù)再向下點(diǎn)擊的話就可以看到這個(gè)任務(wù)的詳細(xì)信息。還有顯示Map和Reduce任務(wù)信息的任務(wù)頁(yè)面。

易部署 

HPCC:環(huán)境配置工具。源服務(wù)器有一個(gè)集中式倉(cāng)庫(kù),它分發(fā)操作系統(tǒng)級(jí)別的設(shè)置、服務(wù)和二進(jìn)制文件到配置中所有可網(wǎng)絡(luò)啟動(dòng)的節(jié)點(diǎn)上。

Hadoop:需要第三方應(yīng)用向?qū)峁┑脑诰€工具協(xié)助。需要手動(dòng)部署RPM。

分布式文件系統(tǒng)

HPCC:Thor的分布式文件系統(tǒng)是面向記錄的,使用本地Linux文件系統(tǒng)存儲(chǔ)部分文件。文件是跨節(jié)點(diǎn)初始化裝載的(提取的),并且每個(gè)節(jié)點(diǎn)都 有一個(gè) 單獨(dú)的部分文件,對(duì)一個(gè)分布式文件來(lái)說(shuō),這個(gè)部分文件可為空。在由用戶指定的偶數(shù)個(gè)記錄/文檔范圍內(nèi)對(duì)文件進(jìn)行分割。主備結(jié)構(gòu)通過(guò)存儲(chǔ)在獨(dú)立服務(wù)器的名字 服務(wù)和文件映射信息來(lái)分割。每個(gè)節(jié)點(diǎn)只需要一個(gè)本地文件來(lái)表示一個(gè)分布式文件。同一環(huán)境下多個(gè)集群之間也支持讀寫訪問(wèn)權(quán)限設(shè)置。使用特定的適配器允許訪問(wèn) 來(lái)自外部數(shù)據(jù)庫(kù)的比如MySQL的文件,允許事務(wù)數(shù)據(jù)與分布式文件數(shù)據(jù)合并且并入批處理的任務(wù)中。Roxie分布式文件系統(tǒng)使用了分布式B+樹索引文件, 這樣的文件包含了鍵值信息和存儲(chǔ)在每個(gè)節(jié)點(diǎn)的本地文件里的數(shù)據(jù)。

Hadoop:面向塊的,大多數(shù)安裝使用大小為64MB或者128MB的塊。塊是以節(jié)點(diǎn)的本地Unix/Linux文件系統(tǒng)的獨(dú)立單元/本地文件存 儲(chǔ)的。 每個(gè)塊的元數(shù)據(jù)信息存儲(chǔ)為一個(gè)獨(dú)立的文件。主備結(jié)構(gòu)使用了單獨(dú)的名字節(jié)點(diǎn)提供名字服務(wù)和塊映射,并且使用了多個(gè)數(shù)據(jù)節(jié)點(diǎn)。文件劃分為塊并且分布地存儲(chǔ)在集 群的各個(gè)節(jié)點(diǎn)??绻?jié)點(diǎn)存儲(chǔ)在一個(gè)節(jié)點(diǎn)上每個(gè)邏輯塊的多個(gè)本地文件(一個(gè)用來(lái)保存塊數(shù)據(jù)、一個(gè)用來(lái)保存元數(shù)據(jù))來(lái)表示一個(gè)分布式文件。

容錯(cuò)性

HPCC:Thor和Roxie的分布式文件系統(tǒng)(可配置)在其他節(jié)點(diǎn)上保存了部分文件的副本,以防止磁盤或者節(jié)點(diǎn)失效。Thor系統(tǒng)在一個(gè)節(jié)點(diǎn)失 效之后 提供了要么自動(dòng)要么手動(dòng)的切換和熱啟動(dòng),任務(wù)從最近一次檢查點(diǎn)重新啟動(dòng)或者繼續(xù)運(yùn)行。當(dāng)復(fù)制數(shù)據(jù)到一個(gè)新的節(jié)點(diǎn)的時(shí)候,副本的制作自動(dòng)進(jìn)行。Roxie系 統(tǒng)在減少節(jié)點(diǎn)數(shù)而引起節(jié)點(diǎn)失效時(shí)繼續(xù)運(yùn)行。

Hadoop:HDFS(可配置)在其他節(jié)點(diǎn)上存儲(chǔ)(用戶指定的)多個(gè)副本,以防止由于自動(dòng)恢復(fù)出現(xiàn)的磁盤或節(jié)點(diǎn)失效。MapReduce架構(gòu)包括了試探性執(zhí)行,當(dāng)檢測(cè)到一個(gè)慢的或者失敗的Map任務(wù)時(shí),其他Map任務(wù)將從失效的節(jié)點(diǎn)處開始恢復(fù)。

上述就是小編為大家分享的HPCC 和 Hadoop 的區(qū)別是什么了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI