溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

解析RDD在Spark中的地位

發(fā)布時(shí)間:2020-08-11 00:01:28 來(lái)源:網(wǎng)絡(luò) 閱讀:256 作者:Hjiangxue 欄目:大數(shù)據(jù)

1.Spark的核心概念是RDD (resilient distributed dataset),指的是一個(gè) 只讀的,可分區(qū)的分布式數(shù)據(jù)集,這個(gè)數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計(jì)算間重用。

2.RDD在抽象上來(lái)說(shuō)是一種元素集合,包含了數(shù)據(jù)。它是被分區(qū)的,分為多個(gè)分區(qū),每個(gè)分區(qū)分布在集群中的不同Worker節(jié)點(diǎn)上,從而讓RDD中的數(shù)據(jù)可以被并行操作。(分布式數(shù)據(jù)集)

3.RDD通常通過(guò)Hadoop上的文件,即HDFS文件或者Hive表,來(lái)進(jìn)行創(chuàng)建;有時(shí)也可以通過(guò)RDD的本地創(chuàng)建轉(zhuǎn)換而來(lái)。

4.傳統(tǒng)的MapReduce雖然具有自動(dòng)容錯(cuò)、平衡負(fù)載和可拓展性的優(yōu)點(diǎn),但是其最大缺點(diǎn)是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計(jì)算式要進(jìn)行大量的磁盤(pán)IO操作。RDD正是解決這一缺點(diǎn)的抽象方法。RDD最重要的特性就是,提供了容錯(cuò)性,可以自動(dòng)從節(jié)點(diǎn)失敗中恢復(fù)過(guò)來(lái)。即如果某個(gè)節(jié)點(diǎn)上的RDD partition,因?yàn)楣?jié)點(diǎn)故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會(huì)自動(dòng)通過(guò)自己的數(shù)據(jù)來(lái)源重新計(jì)算該partition。這一切對(duì)使用者是透明的。RDD的lineage特性。

5.RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時(shí),Spark會(huì)自動(dòng)將RDD數(shù)據(jù)寫(xiě)入磁盤(pán)。(彈性)

RDD在Spark中的地位和作用

1)為什么會(huì)有Spark?因?yàn)閭鹘y(tǒng)的并行計(jì)算模型無(wú)法有效的解決迭代計(jì)算(iterative)和交互式計(jì)算(interactive);而Spark的使命便是解決這兩個(gè)問(wèn)題,這也是他存在的價(jià)值和理由。

2)Spark如何解決迭代計(jì)算?其主要實(shí)現(xiàn)思想就是RDD,把所有計(jì)算的數(shù)據(jù)保存在分布式的內(nèi)存中。迭代計(jì)算通常情況下都是對(duì)同一個(gè)數(shù)據(jù)集做反復(fù)的迭代計(jì)算,數(shù)據(jù)在內(nèi)存中將大大提升IO操作。這也是Spark涉及的核心:內(nèi)存計(jì)算。

3)Spark如何實(shí)現(xiàn)交互式計(jì)算?因?yàn)镾park是用scala語(yǔ)言實(shí)現(xiàn)的,Spark和scala能夠緊密的集成,所以Spark可以完美的運(yùn)用scala的解釋器,使得其中的scala可以向操作本地集合對(duì)象一樣輕松操作分布式數(shù)據(jù)集。

4)Spark和RDD的關(guān)系?可以理解為:RDD是一種具有容錯(cuò)性基于內(nèi)存的集群計(jì)算抽象方法,Spark則是這個(gè)抽象方法的實(shí)現(xiàn)。

結(jié)語(yǔ)

感謝您的觀看,如有不足之處,歡迎批評(píng)指正。

如果有對(duì)大數(shù)據(jù)感興趣的小伙伴或者是從事大數(shù)據(jù)的老司機(jī)可以加群:

658558542    

歡迎大家交流分享,學(xué)習(xí)交流,共同進(jìn)步。(里面還有大量的免費(fèi)資料,幫助大家在成為大數(shù)據(jù)工程師,乃至架構(gòu)師的路上披荊斬棘!)

最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己,祝福大家在往后的工作與面試中一切順利。


向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI