hadoop1存在的問(wèn)題有哪些

發(fā)布時(shí)間：2021-12-09 17:31:44 來(lái)源：億速云閱讀：209 作者：iii 欄目：云計(jì)算

這篇文章主要講解了“hadoop1存在的問(wèn)題有哪些”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“hadoop1存在的問(wèn)題有哪些”吧！

對(duì) hadoop1 和 hadoop 2 做了一個(gè)解釋圖片不錯(cuò) 拿來(lái)看看

hadoop1存在的問(wèn)題有哪些

Hadoop 1.0

從上圖中可以清楚的看出原 MapReduce 程序的流程及設(shè)計(jì)思路：

首先用戶(hù)程序 (JobClient) 提交了一個(gè) job，job 的信息會(huì)發(fā)送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要與集群中的機(jī)器定時(shí)通信 (heartbeat), 需要管理哪些程序應(yīng)該跑在哪些機(jī)器上，需要管理所有 job 失敗、重啟等操作。
TaskTracker 是 Map-reduce 集群中每臺(tái)機(jī)器都有的一個(gè)部分，他做的事情主要是監(jiān)視自己所在機(jī)器的資源情況。
TaskTracker 同時(shí)監(jiān)視當(dāng)前機(jī)器的 tasks 運(yùn)行狀況。TaskTracker 需要把這些信息通過(guò) heartbeat 發(fā)送給 JobTracker，JobTracker 會(huì)搜集這些信息以給新提交的 job 分配運(yùn)行在哪些機(jī)器上。上圖虛線(xiàn)箭頭就是表示消息的發(fā)送 - 接收的過(guò)程。

可以看得出原來(lái)的 map-reduce 架構(gòu)是簡(jiǎn)單明了的，在最初推出的幾年，也得到了眾多的成功案例，獲得業(yè)界廣泛的支持和肯定，但隨著分布式系統(tǒng)集群的規(guī)模和其工作負(fù)荷的增長(zhǎng)，原框架的問(wèn)題逐漸浮出水面，主要的問(wèn)題集中如下：

JobTracker 是 Map-reduce 的集中處理點(diǎn)，存在單點(diǎn)故障。
JobTracker 完成了太多的任務(wù)，造成了過(guò)多的資源消耗，當(dāng) map-reduce job 非常多的時(shí)候，會(huì)造成很大的內(nèi)存開(kāi)銷(xiāo)，潛在來(lái)說(shuō)，也增加了 JobTracker fail 的風(fēng)險(xiǎn)，這也是業(yè)界普遍總結(jié)出老 Hadoop 的 Map-Reduce 只能支持 4000 節(jié)點(diǎn)主機(jī)的上限。
在 TaskTracker 端，以 map/reduce task 的數(shù)目作為資源的表示過(guò)于簡(jiǎn)單，沒(méi)有考慮到 cpu/ 內(nèi)存的占用情況，如果兩個(gè)大內(nèi)存消耗的 task 被調(diào)度到了一塊，很容易出現(xiàn) OOM。
在 TaskTracker 端，把資源強(qiáng)制劃分為 map task slot 和 reduce task slot, 如果當(dāng)系統(tǒng)中只有 map task 或者只有 reduce task 的時(shí)候，會(huì)造成資源的浪費(fèi)，也就是前面提過(guò)的集群資源利用的問(wèn)題。
源代碼層面分析的時(shí)候，會(huì)發(fā)現(xiàn)代碼非常的難讀，常常因?yàn)橐粋€(gè) class 做了太多的事情，代碼量達(dá) 3000 多行，，造成 class 的任務(wù)不清晰，增加 bug 修復(fù)和版本維護(hù)的難度。
從操作的角度來(lái)看，現(xiàn)在的 Hadoop MapReduce 框架在有任何重要的或者不重要的變化 ( 例如 bug 修復(fù)，性能提升和特性化 ) 時(shí)，都會(huì)強(qiáng)制進(jìn)行系統(tǒng)級(jí)別的升級(jí)更新。更糟的是，它不管用戶(hù)的喜好，強(qiáng)制讓分布式集群系統(tǒng)的每一個(gè)用戶(hù)端同時(shí)更新。這些更新會(huì)讓用戶(hù)為了驗(yàn)證他們之前的應(yīng)用程序是不是適用新的 Hadoop 版本而浪費(fèi)大量時(shí)間。

hadoop2.0：

hadoop1存在的問(wèn)題有哪些
從業(yè)界使用分布式系統(tǒng)的變化趨勢(shì)和 hadoop 框架的長(zhǎng)遠(yuǎn)發(fā)展來(lái)看，MapReduce 的 JobTracker/TaskTracker 機(jī)制需要大規(guī)模的調(diào)整來(lái)修復(fù)它在可擴(kuò)展性，內(nèi)存消耗，線(xiàn)程模型，可靠性和性能上的缺陷。在過(guò)去的幾年中，hadoop 開(kāi)發(fā)團(tuán)隊(duì)做了一些 bug 的修復(fù)，但是最近這些修復(fù)的成本越來(lái)越高，這表明對(duì)原框架做出改變的難度越來(lái)越大。

為從根本上解決舊 MapReduce 框架的性能瓶頸，促進(jìn) Hadoop 框架的更長(zhǎng)遠(yuǎn)發(fā)展，從 0.23.0 版本開(kāi)始，Hadoop 的 MapReduce 框架完全重構(gòu)，發(fā)生了根本的變化。新的 Hadoop MapReduce 框架命名為 MapReduceV2 或者叫 Yarn，

重構(gòu)根本的思想是將 JobTracker 兩個(gè)主要的功能分離成單獨(dú)的組件，這兩個(gè)功能是資源管理和任務(wù)調(diào)度 / 監(jiān)控。新的資源管理器全局管理所有應(yīng)用程序計(jì)算資源的分配，每一個(gè)應(yīng)用的 ApplicationMaster 負(fù)責(zé)相應(yīng)的調(diào)度和協(xié)調(diào)。一個(gè)應(yīng)用程序無(wú)非是一個(gè)單獨(dú)的傳統(tǒng)的 MapReduce 任務(wù)或者是一個(gè) DAG( 有向無(wú)環(huán)圖 ) 任務(wù)。ResourceManager 和每一臺(tái)機(jī)器的節(jié)點(diǎn)管理服務(wù)器能夠管理用戶(hù)在那臺(tái)機(jī)器上的進(jìn)程并能對(duì)計(jì)算進(jìn)行組織。

事實(shí)上，每一個(gè)應(yīng)用的 ApplicationMaster 是一個(gè)詳細(xì)的框架庫(kù)，它結(jié)合從 ResourceManager 獲得的資源和 NodeManager 協(xié)同工作來(lái)運(yùn)行和監(jiān)控任務(wù)。

上圖中 ResourceManager 支持分層級(jí)的應(yīng)用隊(duì)列，這些隊(duì)列享有集群一定比例的資源。從某種意義上講它就是一個(gè)純粹的調(diào)度器，它在執(zhí)行過(guò)程中不對(duì)應(yīng)用進(jìn)行監(jiān)控和狀態(tài)跟蹤。同樣，它也不能重啟因應(yīng)用失敗或者硬件錯(cuò)誤而運(yùn)行失敗的任務(wù)。

ResourceManager 是基于應(yīng)用程序?qū)Y源的需求進(jìn)行調(diào)度的 ; 每一個(gè)應(yīng)用程序需要不同類(lèi)型的資源因此就需要不同的容器。資源包括：內(nèi)存，CPU，磁盤(pán)，網(wǎng)絡(luò)等等?？梢钥闯?，這同現(xiàn) Mapreduce 固定類(lèi)型的資源使用模型有顯著區(qū)別，它給集群的使用帶來(lái)負(fù)面的影響。資源管理器提供一個(gè)調(diào)度策略的插件，它負(fù)責(zé)將集群資源分配給多個(gè)隊(duì)列和應(yīng)用程序。調(diào)度插件可以基于現(xiàn)有的能力調(diào)度和公平調(diào)度模型。

上圖中 NodeManager 是每一臺(tái)機(jī)器框架的代理，是執(zhí)行應(yīng)用程序的容器，監(jiān)控應(yīng)用程序的資源使用情況 (CPU，內(nèi)存，硬盤(pán)，網(wǎng)絡(luò) ) 并且向調(diào)度器匯報(bào)。

每一個(gè)應(yīng)用的 ApplicationMaster 的職責(zé)有：向調(diào)度器索要適當(dāng)?shù)馁Y源容器，運(yùn)行任務(wù)，跟蹤應(yīng)用程序的狀態(tài)和監(jiān)控它們的進(jìn)程，處理任務(wù)的失敗原因。

感謝各位的閱讀，以上就是“hadoop1存在的問(wèn)題有哪些”的內(nèi)容了，經(jīng)過(guò)本文的學(xué)習(xí)后，相信大家對(duì)hadoop1存在的問(wèn)題有哪些這一問(wèn)題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

向AI問(wèn)一下細(xì)節(jié)

hadoop1存在的問(wèn)題有哪些

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽