溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

【科普】一篇文章讓你知曉Spark

發(fā)布時(shí)間:2020-06-03 07:45:42 來(lái)源:網(wǎng)絡(luò) 閱讀:489 作者:小程序員一 欄目:大數(shù)據(jù)

說(shuō)起大數(shù)據(jù)的工具,最廣為人知的就是Hadoop和Spark了,Hadoop在上一篇文章中已經(jīng)有所介紹,這期小編就為大家介紹后起之秀Spark。

Spark是一個(gè)運(yùn)算速度快如閃電的Apache項(xiàng)目,研發(fā)人員聲稱(chēng)它是“一種用于數(shù)據(jù)大規(guī)模處理的快速通用引擎”,[A1]  Spark是UC BerkeleyAMP lab所開(kāi)源的類(lèi)Hadoop MapReduce的通用的并行計(jì)算框架,基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)。[A2] 

 

它提供了一個(gè)運(yùn)算速度快的一般化數(shù)據(jù)處理平臺(tái),可以讓你程序的內(nèi)存計(jì)算速度提高到100倍,或者磁盤(pán)計(jì)算速度(Hadoop)提高10倍。去年的Daytona GraySort比賽中,Spark只用了Hadoop十分之一數(shù)量的機(jī)器就實(shí)現(xiàn)了其三倍多的速度,目前,Spark已經(jīng)成了處理PB級(jí)別數(shù)據(jù)運(yùn)算速度最快的開(kāi)源工具。[A3] 

Spark核心概念是ResilientDistributed Dataset (RDD)彈性分布數(shù)據(jù)集,RDD實(shí)現(xiàn)了以操作本地集合的方式來(lái)操作分布式數(shù)據(jù)集的抽象實(shí)現(xiàn)。RDD是Spark最核心的東西,它表示已被分區(qū),不可變的并能夠被并行操作的數(shù)據(jù)集合,不同的數(shù)據(jù)集格式對(duì)應(yīng)不同的RDD實(shí)現(xiàn)。RDD必須是可序列化的,可以cache到內(nèi)存中,每次對(duì)RDD數(shù)據(jù)集的操作之后的結(jié)果,都可以存放到內(nèi)存中,下一個(gè)操作可以直接從內(nèi)存中輸入,省去了MapReduce大量的磁盤(pán)IO操作。這對(duì)于迭代運(yùn)算比較常見(jiàn)的機(jī)器學(xué)習(xí)算法, 交互式數(shù)據(jù)挖掘來(lái)說(shuō),效率提升比較大。[A4] 

以RDD為核心的Spark構(gòu)架圖如下

Spark在機(jī)器學(xué)習(xí)方面有著無(wú)與倫比的優(yōu)勢(shì),特別適合需要多次迭代計(jì)算的算法。同時(shí)Spark擁有非常出色的容錯(cuò)和調(diào)度機(jī)制,確保系統(tǒng)的穩(wěn)定運(yùn)行[A5] ,而在易用性方面,更是大有名氣,它隨帶易于使用的API,支持Scala(原生語(yǔ)言)、Java、Python和Spark SQL。SparkSQL非常類(lèi)似于SQL 92,所以幾乎不需要經(jīng)歷一番學(xué)習(xí),馬上可以上手。[A6] 

Spark幫助人們簡(jiǎn)化了處理大規(guī)模數(shù)據(jù)的步驟流程,將許多復(fù)雜的功能(比如機(jī)器學(xué)習(xí)算法和圖算法)無(wú)縫地結(jié)合起來(lái),并以其快如閃電的計(jì)算速度,正在快速地?cái)U(kuò)大著自己的影響力,我們有理由相信,憑借Spark獨(dú)特的優(yōu)異性能,未來(lái)Spark必將會(huì)綻放出更為璀璨的光芒。

 

 [A1]來(lái)源:別再比較HadoopSpark了,那不是設(shè)計(jì)人員的初衷

 

 [A2]來(lái)源科普Spark,Spark是什么,如何使用Spark;百度百科

 [A3]來(lái)源:Apache Spark介紹及案例展示

 [A4]來(lái)源:科普Spark,Spark核心是什么,如何使用Spark2http://www.aboutyun.com/thread-6850-1-1.html

 [A5]來(lái)源:跟我一起數(shù)據(jù)挖掘(22)——spark入門(mén)

 [A6]來(lái)源:別再比較HadoopSpark了,那不是設(shè)計(jì)人員的初衷

最終來(lái)源:?jiǎn)?chuàng)方舟微信公眾號(hào)

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI