溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

MapReduce和Hadoop發(fā)展趨勢怎么樣

發(fā)布時(shí)間:2021-12-06 13:36:00 來源:億速云 閱讀:514 作者:小新 欄目:開發(fā)技術(shù)

小編給大家分享一下MapReduce和Hadoop發(fā)展趨勢怎么樣,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

MapReduce和Hadoop

Hadoop
Hadoop是一個(gè)開源的分布式計(jì)算平臺,它主要由MapReduce的算法執(zhí)行和一個(gè)分布式的文件系統(tǒng)等兩部分組成。InfoQ曾經(jīng)刊登過一篇JeremyZawodny寫的有關(guān)Hadoop速度提升的綜述性文章。這次InfoQ的資深Java編輯ScottDelap和Hadoop項(xiàng)目負(fù)責(zé)人DougCutting進(jìn)行了一次專訪。在這次InfoQ的專訪中,Cutting論述了Hadoop是如何在Yahoo中被使用的,以及Hadoop發(fā)展中遇到的挑戰(zhàn)和Hadoop項(xiàng)目未來的發(fā)展方向。

ScottDelap(SD):Hadoop已經(jīng)作為正式產(chǎn)品服務(wù)于Yahoo的某些功能了嗎?如果還沒有,有什么計(jì)劃讓Hadoop從一個(gè)實(shí)驗(yàn)性的產(chǎn)品向核心基礎(chǔ)組件遷移?
DougCutting(DC):Yahoo定期在搜索業(yè)務(wù)上使用Hadoop來提高其產(chǎn)品和服務(wù),如排名功能和目標(biāo)廣告等。除此之外,也有一些直接使用Hadoop進(jìn)行數(shù)據(jù)生成的案例。Hadoop的長期目標(biāo)是提供***的分布式計(jì)算工具,也是對下一代業(yè)務(wù)(如搜索結(jié)果分析等)提供支持的Web擴(kuò)展(web-scale)服務(wù)。

SD:Yahoo負(fù)責(zé)Hadoop項(xiàng)目的團(tuán)隊(duì)的規(guī)模有多大?除了Yahoo內(nèi)部人員,其余還有多少活躍的代碼貢獻(xiàn)者?

DC:Yahoo有一個(gè)專項(xiàng)小組直接負(fù)責(zé)Hadoop的開發(fā)工作,而Apache開源項(xiàng)目的活躍貢獻(xiàn)者一般都有自己的***職業(yè)。即使如此,仍然有一些非Yahoo工作人員每月、每周甚至每天為Hadoop做出自己的貢獻(xiàn)。

SD:相比Google,Yahoo堅(jiān)持在可擴(kuò)展的基礎(chǔ)架構(gòu)上采用不同途徑。雖然Google已經(jīng)發(fā)布了眾多技術(shù)方面的論文,但其對普通大眾意義并不十分明顯。而為什么你覺得開源是正確的一個(gè)方向?

DC:開源項(xiàng)目得到***的運(yùn)行需要滿足兩個(gè)條件:***,每個(gè)人對項(xiàng)目所能做的事有共同的認(rèn)識。第二,有一套易理解的文檔解決方案。由于基礎(chǔ)架構(gòu)軟件在眾多領(lǐng)域有廣泛應(yīng)用,所以此類開源軟件發(fā)展的格外好。而Yahoo就在使用并支撐FreeBsd、Linux、Apache、PHP和MySQL等此類基礎(chǔ)架構(gòu)軟件。讓任何人都可以利用Hadoop來幫助Yahoo改善現(xiàn)狀并提高目前建立大型分布式系統(tǒng)的水平。源代碼僅僅只是難題的一小部分,除此之外,一個(gè)組織還需要有個(gè)非常強(qiáng)大的工程師團(tuán)隊(duì)來解決重大難題并使其付諸實(shí)踐。有正確的發(fā)布和管理基礎(chǔ)架構(gòu)的能力也顯得非常的重要。目前幾乎沒有哪家公司能擁有所有這些必需的資源。所以,軟件工程師們都愿意為開源項(xiàng)目工作,他們能在巨大的社區(qū)中遇到許多志同道合的朋友,學(xué)到一些被共享的技巧并應(yīng)用于今后的其他項(xiàng)目中。這樣優(yōu)秀的社區(qū)環(huán)境很容易培養(yǎng)出許多新的杰出工程師。Yahoo和Hadoop社區(qū)都受益于這種合作的機(jī)制,更加懂得大規(guī)模的分布式計(jì)算所需要的東西,并且把我們專家的意見和技術(shù)都共享出來建立一個(gè)人人都能使用和修改的解決方案.

SD:回到技術(shù)的本身,近年隨著Hadoop的不斷發(fā)展,你覺得影響其速度和穩(wěn)定性的要素是什么?我發(fā)現(xiàn)現(xiàn)在500條記錄的排序基準(zhǔn)比去年快上了20倍,這是由于某個(gè)部分巨大的提升所至還是由多個(gè)部分的共同優(yōu)化所帶來的結(jié)果?

DC:在處理Web擴(kuò)展服類軟件過程中,隨著使用此解決方案的其它公司和組織的不斷增加,Yahoo發(fā)現(xiàn)它們都獲得相似的性能。Yahoo決定將其開源,而非以私有軟件的形式繼續(xù)發(fā)展。所以Yahoo雇傭了我來帶領(lǐng)這個(gè)項(xiàng)目。至今,Yahoo已經(jīng)貢獻(xiàn)了絕大部分代碼。

至于速度的提升,是過去幾年努力成果的一個(gè)總和,并且已經(jīng)經(jīng)過了反復(fù)的試驗(yàn)。在給定規(guī)模的服務(wù)器集群中,我們能讓系統(tǒng)非常平穩(wěn)地運(yùn)行,然后試驗(yàn)在兩倍于這樣規(guī)模的服務(wù)器集群中運(yùn)行會(huì)發(fā)生什么情況。我們的目標(biāo)是讓性能隨集群規(guī)模增長成線性增加。我們從這個(gè)過程中不斷學(xué)習(xí),并且再次增大集群的規(guī)模。每增大一次集群的規(guī)模,更多數(shù)量和更多種類的錯(cuò)誤也將相應(yīng)增加,因此穩(wěn)定性將是個(gè)重大問題。
每一次這樣做,我們都能明白哪些東西是可以達(dá)到的,哪些經(jīng)驗(yàn)可以貢獻(xiàn)給開源的網(wǎng)格計(jì)算公共知識庫的。隨著服務(wù)器集群規(guī)模的增大,各種新的故障不斷產(chǎn)生,罕見的錯(cuò)誤變?yōu)槌R姷腻e(cuò)誤,這些情況都是需要我們解決的。而這個(gè)過程所學(xué)到的又將影響到我們下一次這樣反復(fù)的試驗(yàn)。

SD:去年起Hadoop就已經(jīng)可以在AmazonEC2上運(yùn)行了。這將使開發(fā)者可以快速搭建起他們自己的服務(wù)器集群。那么管理這樣一個(gè)集群、HDFS以及MapReduce的處理還有什么額外的工作需要做嗎?

DC:Yahoo有一個(gè)名為HOD(HadooponDemand)的項(xiàng)目,它可以讓Mapreduce運(yùn)行在很普通的機(jī)器上。這還是一個(gè)正處于建設(shè)過程中的開源項(xiàng)目。由于運(yùn)行一個(gè)大型的集群是非常復(fù)雜和受資源限制的事,所以AmazonEC2對于普通民眾來說,是一個(gè)非常不錯(cuò)的接觸Hadoop的平臺。

SD:在Hadoop功能上你如何客觀地和Google已發(fā)布的產(chǎn)品進(jìn)行比較?在從程序單元到數(shù)據(jù)單元的優(yōu)化解決過程中,有什么新特性嗎?

DC:近十年來,很多大型公司(包括Yahoo)和一些理論研究機(jī)構(gòu)都在對大規(guī)模分布式計(jì)算軟件進(jìn)行開發(fā)和研究。而最近隨著經(jīng)濟(jì)計(jì)算在消費(fèi)市場的顯現(xiàn),這種開發(fā)和研究的興趣更加高漲。與Google不同,Yahoo采取了開發(fā)完全開源的Hadoop,讓任何人都可以免費(fèi)使用和修改這個(gè)軟件。Hadoop的目標(biāo)已經(jīng)延伸到超越目前現(xiàn)存的任何技術(shù)復(fù)制品的地步。我們將致力于把Hadoop建立成一個(gè)對任何人都有用的系統(tǒng)。我們已經(jīng)實(shí)現(xiàn)了大多數(shù)Google已經(jīng)發(fā)布的東西,而且還加上很多其它沒有提及到的。Yahoo在這個(gè)項(xiàng)目中將扮演***的角色,因?yàn)樗哪繕?biāo)和我們的需求是非常吻合的,并且我們明白共享這個(gè)技術(shù)給世界的意義。

SD:***的官方版本是0.13.1。在未來會(huì)有什么重大的新特性嗎?1.0版將完成什么樣的一些工作。

DC:0.14.0版就將有多達(dá)218處的變化。其中對系統(tǒng)***的改變是我們直接改良了數(shù)據(jù)的完整性。這是一個(gè)對用戶來說看不見的變化,但是它對于整個(gè)系統(tǒng)的未來發(fā)展來說是很有效的。由于數(shù)據(jù)和集群的規(guī)模,無論是內(nèi)存還是磁盤都很頻繁地出現(xiàn)問題,這將是個(gè)危機(jī)。我們還添加了改變文件時(shí)間的功能,還有一些MapReduce的C++API函數(shù),還增加了主機(jī)的一些其它特性,以及bug的定位和修復(fù)。

Hadoop0.15.0也正在成型,計(jì)劃會(huì)有88處修改。這個(gè)版本會(huì)增加對文件系統(tǒng)的認(rèn)證和授權(quán),讓同一服務(wù)器集群之間的信息訪問變得更加安全。我們還計(jì)劃修訂大量的Mapreduce的API。0.15.0將是一個(gè)很有難度的版本,因?yàn)樗枰脩魧λ麄兊膽?yīng)用做出修改,我們希望能一步到位。我們還希望0.15將是1.0以前的***一個(gè)版本。在1.0以后我們就將會(huì)非常保守了,不會(huì)再突然做出巨大的改變。我們同樣也會(huì)非常關(guān)注向后兼容的問題,對于1.0版本來說,這將顯得更加的重要。任何為1.0版編寫的代碼也將繼續(xù)可運(yùn)行在1.X以后的版本。所以我們需要保證我們現(xiàn)有的API能輕松地?cái)U(kuò)展到以后的版本。我們將試著在0.15版本就將這些落實(shí)。

以上是“MapReduce和Hadoop發(fā)展趨勢怎么樣”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI