您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“Spark中RDD依賴(lài)分為哪幾種”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
一、以RDD為基石的Spark編程模型
在Spark中一切都是基于RDD的:
什么是RDD呢?官方給出的解釋是:
也就是說(shuō)每個(gè)RDD都至少有以下三個(gè)函數(shù)實(shí)現(xiàn):
Spark自帶了非常多的RDD:
RDD主要分為兩種:
其中的transformations是lazy execution的,需要具體的action去觸發(fā),每個(gè)action操作都是一個(gè)單獨(dú)的job;
接下來(lái)我們看一個(gè)具體的RDD操作的例子:
RDD中有兩個(gè)比較特殊的RDD:
這兩個(gè)RDD的特殊之處在于皆是控制性操作的RDD:
二,RDD的依賴(lài)和運(yùn)行時(shí)
在Spark中RDD是具備依賴(lài)關(guān)系的,而依賴(lài)分為兩種:
“Narrow”依賴(lài)的一個(gè)好處就是可以進(jìn)行內(nèi)部的pipeline操作:
運(yùn)行的時(shí)候是以RDD為統(tǒng)一抽象并行化運(yùn)行:
更進(jìn)一步的詳細(xì)RDD并行化計(jì)算過(guò)程如下所示:
正如所有的分布式結(jié)構(gòu)一樣,Spark分布式集群也是主從結(jié)構(gòu)的:
Spark運(yùn)行時(shí)組件如下所示:
Spark運(yùn)行時(shí)候的事件流如下所示:
“Spark中RDD依賴(lài)分為哪幾種”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。