Spark的應(yīng)用有哪些

發(fā)布時間：2021-12-16 14:52:57 來源：億速云閱讀：115 作者：iii 欄目：云計算

本篇內(nèi)容介紹了“Spark的應(yīng)用有哪些”的有關(guān)知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

一、MapReduce將死，Spark稱霸，Hadoop死而不僵

由于Hadoop的MapReduce高延遲的死穴，導(dǎo)致Hadoop無力處理很多對時間有要求的場景，人們對其批評越來越多，Hadoop無力改變現(xiàn)在而導(dǎo)致正在死亡。正如任何領(lǐng)域一樣，死亡是一個過程，Hadoop正在示例這樣的一個過程，Hadoop的死亡過程在2012年已經(jīng)開始，迭代與算法的無力是硬傷。

拿出五分鐘看看這個世界目前發(fā)生了什么？

1，原先支持Hadoop的四大商業(yè)機(jī)構(gòu)紛紛宣布支持Spark；

2，Mahout前一階段表示從現(xiàn)在起他們將不再接受任何形式的以MapReduce形式實現(xiàn)的算法，另外一方面，Mahout宣布新的算法基于Spark；

3，Cloudera的機(jī)器學(xué)習(xí)框架Oryx的執(zhí)行引擎也將由Hadoop的MapReduce替換成Spark；

4，Google已經(jīng)開始將負(fù)載從MapReduce轉(zhuǎn)移到Pregel和Dremel上 - 其實Mapreduce的論文一開始是被拋棄，才被公布于世。

5，F(xiàn)aceBook則將負(fù)載轉(zhuǎn)移到Presto上；

現(xiàn)在很多原來使用深度使用Hadoop的公司都在紛紛轉(zhuǎn)向Spark，國內(nèi)的淘寶是典型的案例。

在此，我們以使用世界上使用Hadoop最典型的公司Yahoo！為例，大家可以看一下其數(shù)據(jù)處理的架構(gòu)圖：

Spark的應(yīng)用有哪些

無非是實時和非實時的兩條斗爭的線路，在引入了Spark之后

Spark的應(yīng)用有哪些

隨著時間的推進(jìn)和Spark本身流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NoSQL查詢的出色特性可能會完成Spark全面取代Hadoop的計算能力，而這也代表了所有做云計算大數(shù)據(jù)公司的趨勢。

hadoop越來越退化為一個標(biāo)桿的文件系統(tǒng)下所抽象的容器。

或許有朋友會問，Hadoop為何不改進(jìn)自己？

其實，Hadoop社區(qū)一直在改進(jìn)Hadoop本身，世界就是這樣，固有的事物總是強(qiáng)勢，改革總不如革命來的猛烈。

1，Hadoop的改進(jìn)基本停留在代碼層次，也就是修修補(bǔ)補(bǔ)的事情，這就導(dǎo)致了Hadoop現(xiàn)在具有深度的“技術(shù)債務(wù)”，負(fù)載累累；Hadoop2.0的擴(kuò)展本章上就是：一旦不能駕馭某種事物，那就擴(kuò)大自身的范疇，以期待完全的包含關(guān)系。

2，Hadoop本身的計算模型決定了Hadoop上的所有工作都要轉(zhuǎn)化成Map、Shuffle和Reduce等核心階段，由于每次計算都要從磁盤讀或者寫數(shù)據(jù)，同時真?zhèn)€計算模型需要網(wǎng)絡(luò)傳輸，這就導(dǎo)致了越來越不能忍受的延遲性，同時在前一個任務(wù)運(yùn)行完之前，任何一個任務(wù)都不可以運(yùn)行，這直接導(dǎo)致了其無力支持交互式應(yīng)用；

那么，為什么不全部重新寫一個更好的Hadoop呢 ? 答案是Spark的出現(xiàn)使得沒有必要這樣做了。

Spark是繼Hadoop之后，成為替代Hadoop的下一代云計算大數(shù)據(jù)核心技術(shù)，目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng)，如流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NoSQL查詢等方面都有自己的技術(shù)，并且是Apache頂級Project，可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。

國外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark。

甚至連Hadoop的早期主要貢獻(xiàn)者Yahoo現(xiàn)在也在多個項目中部署使用Spark；

國內(nèi)的淘寶、優(yōu)酷土豆、網(wǎng)易、Baidu、騰訊等已經(jīng)使用Spark技術(shù)用于自己的商業(yè)生產(chǎn)系統(tǒng)中，國內(nèi)外的應(yīng)用開始越來越廣泛。

“Spark的應(yīng)用有哪些”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

向AI問一下細(xì)節(jié)

Spark的應(yīng)用有哪些

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽