您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“如何通過(guò)map操作看RDD的Map過(guò)程”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
RDD中的map,flatMap等操作是怎么串在一起形成DAG圖的呢?這是個(gè)很重要的問(wèn)題,理解了這一點(diǎn)才能更好的理解Spark的內(nèi)核實(shí)現(xiàn)。本文通過(guò)map過(guò)程來(lái)試圖解釋這一點(diǎn)。
先看看RDD的一個(gè)子類:MapPartitionsRDD,它會(huì)用在map函數(shù)場(chǎng)景下。
它的定義:
private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag]( var prev: RDD[T], f: (TaskContext, Int, Iterator[T]) => Iterator[U], // (TaskContext, partition index, iterator) preservesPartitioning: Boolean = false, isFromBarrier: Boolean = false, isOrderSensitive: Boolean = false) extends RDD[U](prev)
prev是父RDD,就是父類RDD的入?yún)?,在后面的代碼里就是firstParent。
F代表了map函數(shù)的定義,其中第二個(gè)Int參數(shù)是分區(qū)索引號(hào)。我們先不管這個(gè)f入?yún)⒃趺磦鬟M(jìn)來(lái)的,先看看MapPartitionsRDD需要做哪些事。
前面說(shuō)過(guò),對(duì)于RDD來(lái)說(shuō),最重要的函數(shù)就是compute,MapPartitionsRDD的compute方法定義:
override def compute(split: Partition, context: TaskContext): Iterator[U] = f(context, split.index, firstParent[T].iterator(split, context))
很明確,就是用當(dāng)前的solit分區(qū)來(lái)執(zhí)行入?yún)⒌膄函數(shù)!
那么,這個(gè)MapPartitionsRDD是怎么產(chǎn)生的呢?原來(lái)是在RDD類中的map函數(shù)產(chǎn)生的:
def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[U, T](this, (_, _, iter) => iter.map(cleanF)) }
這幾行代碼什么意思?這里還是需要好好分析一下的。
對(duì)照MapPartitionsRDD的定義,我們知道:
(_, _, iter) => iter.map(cleanF)
里面的_,_代表TaskContext和分區(qū)索引,因?yàn)樵贛apPartitionsRDD的compute方法中已經(jīng)有了split入?yún)⒑蚦ontext入?yún)?,所以在RDD中就不需要傳這兩個(gè)參數(shù)了。
iter代表要處理的數(shù)據(jù)集,在MapPartitionsRDD中的compute方法中定義為:
firstParent[T].iterator(split, context)
函數(shù)就是第一個(gè)父類RDD的split分區(qū)的數(shù)據(jù)集。這里就很清楚了,對(duì)這個(gè)數(shù)據(jù)集做cleanF操作(也就是sc.clean之后的map函數(shù),sc.clean是去掉不能序列號(hào)的字節(jié)碼的意思,保證可以序列化后分發(fā)到其他節(jié)點(diǎn)執(zhí)行)。
“如何通過(guò)map操作看RDD的Map過(guò)程”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。