<strong id="rx1o5"></strong>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

創(chuàng)建RDD的方式有哪些

發(fā)布時(shí)間：2021-12-22 15:45:44 來源：億速云閱讀：426 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要講解了“創(chuàng)建RDD的方式有哪些”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“創(chuàng)建RDD的方式有哪些”吧！

1.從集合中創(chuàng)建RDD

val conf = new SparkConf().setAppName("Test").setMaster("local")
      val sc = new SparkContext(conf)
      //這兩個(gè)方法都有第二參數(shù)是一個(gè)默認(rèn)值2 分片數(shù)量(partition的數(shù)量)
      //scala集合通過makeRDD創(chuàng)建RDD,底層實(shí)現(xiàn)也是parallelize
      val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6))
     //scala集合通過parallelize創(chuàng)建RDD
      val rdd2 = sc.parallelize(Array(1,2,3,4,5,6))

2.從外部存儲(chǔ)創(chuàng)建RDD

//從外部存儲(chǔ)創(chuàng)建RDD
val rdd3 = sc.textFile("hdfs://hadoop01:8020/word.txt")

RDD編程API

RDD支持兩種操作:轉(zhuǎn)化操作和行動(dòng)操作。RDD 的轉(zhuǎn)化操作是返回一個(gè)新的 RDD的操作，比如 map()和 filter()，而行動(dòng)操作則是向驅(qū)動(dòng)器程序返回結(jié)果或把結(jié)果寫入外部系統(tǒng)的操作。比如 count() 和 first()。

Spark采用惰性計(jì)算模式，RDD只有第一次在一個(gè)行動(dòng)操作中用到時(shí)，才會(huì)真正計(jì)算。Spark可以優(yōu)化整個(gè)計(jì)算過程。默認(rèn)情況下，Spark 的 RDD 會(huì)在你每次對(duì)它們進(jìn)行行動(dòng)操作時(shí)重新計(jì)算。如果想在多個(gè)行動(dòng)操作中重用同一個(gè) RDD，可以使用 RDD.persist() 讓 Spark 把這個(gè) RDD 緩存下來。

Transformation算子

RDD中的所有轉(zhuǎn)換都是延遲加載的，也就是說，它們并不會(huì)直接計(jì)算結(jié)果。相反的，它們只是記住這些應(yīng)用到基礎(chǔ)數(shù)據(jù)集（例如一個(gè)文件）上的轉(zhuǎn)換動(dòng)作。只有當(dāng)發(fā)生一個(gè)要求返回結(jié)果給Driver的動(dòng)作時(shí)，這些轉(zhuǎn)換才會(huì)真正運(yùn)行。這種設(shè)計(jì)讓Spark更加有效率地運(yùn)行。

轉(zhuǎn)換	含義
map(func)	返回一個(gè)新的RDD，該RDD由每一個(gè)輸入元素經(jīng)過func函數(shù)轉(zhuǎn)換后組成
filter(func)	返回一個(gè)新的RDD，該RDD由經(jīng)過func函數(shù)計(jì)算后返回值為true的輸入元素組成
flatMap(func)	類似于map，但是每一個(gè)輸入元素可以被映射為0或多個(gè)輸出元素（所以func應(yīng)該返回一個(gè)序列，而不是單一元素）
mapPartitions(func)	類似于map，但獨(dú)立地在RDD的每一個(gè)分片上運(yùn)行，因此在類型為T的RDD上運(yùn)行時(shí)，func的函數(shù)類型必須是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	類似于mapPartitions，但func帶有一個(gè)整數(shù)參數(shù)表示分片的索引值，因此在類型為T的RDD上運(yùn)行時(shí)，func的函數(shù)類型必須是(Int, Iterator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根據(jù)fraction指定的比例對(duì)數(shù)據(jù)進(jìn)行采樣，可以選擇是否使用隨機(jī)數(shù)進(jìn)行替換，seed用于指定隨機(jī)數(shù)生成器種子
union(otherDataset)	對(duì)源RDD和參數(shù)RDD求并集后返回一個(gè)新的RDD
intersection(otherDataset)	對(duì)源RDD和參數(shù)RDD求交集后返回一個(gè)新的RDD
distinct([numTasks]))	對(duì)源RDD進(jìn)行去重后返回一個(gè)新的RDD
groupByKey([numTasks])	在一個(gè)(K,V)的RDD上調(diào)用，返回一個(gè)(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])	在一個(gè)(K,V)的RDD上調(diào)用，返回一個(gè)(K,V)的RDD，使用指定的reduce函數(shù)，將相同key的值聚合到一起，與groupByKey類似，reduce任務(wù)的個(gè)數(shù)可以通過第二個(gè)可選的參數(shù)來設(shè)置
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])	相同的Key值進(jìn)行聚合操作，在聚合過程中同樣使用了一個(gè)中立的初始值z(mì)eroValue:中立值,定義返回value的類型，并參與運(yùn)算seqOp:用來在同一個(gè)partition中合并值combOp:用來在不同partiton中合并值
sortByKey([ascending], [numTasks])	在一個(gè)(K,V)的RDD上調(diào)用，K必須實(shí)現(xiàn)Ordered接口，返回一個(gè)按照key進(jìn)行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])	與sortByKey類似，但是更靈活
join(otherDataset, [numTasks])	在類型為(K,V)和(K,W)的RDD上調(diào)用，返回一個(gè)相同key對(duì)應(yīng)的所有元素對(duì)在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])	在類型為(K,V)和(K,W)的RDD上調(diào)用，返回一個(gè)(K,(Iterable,Iterable))類型的RDD
cartesian(otherDataset)	笛卡爾積
pipe(command, [envVars])	將一些shell命令用于Spark中生成新的RDD
coalesce(numPartitions)	重新分區(qū)
repartition(numPartitions)	重新分區(qū)
repartitionAndSortWithinPartitions(partitioner)	重新分區(qū)和排序

Action算子

在RDD上運(yùn)行計(jì)算,并返回結(jié)果給Driver或?qū)懭胛募到y(tǒng)

動(dòng)作	含義
reduce(func)	通過func函數(shù)聚集RDD中的所有元素，這個(gè)功能必須是可交換且可并聯(lián)的
collect()	在驅(qū)動(dòng)程序中，以數(shù)組的形式返回?cái)?shù)據(jù)集的所有元素
count()	返回RDD的元素個(gè)數(shù)
first()	返回RDD的第一個(gè)元素（類似于take(1)）
take(n)	返回一個(gè)由數(shù)據(jù)集的前n個(gè)元素組成的數(shù)組
takeSample(withReplacement,num, [seed])	返回一個(gè)數(shù)組，該數(shù)組由從數(shù)據(jù)集中隨機(jī)采樣的num個(gè)元素組成，可以選擇是否用隨機(jī)數(shù)替換不足的部分，seed用于指定隨機(jī)數(shù)生成器種子
takeOrdered(n, [ordering])	takeOrdered和top類似，只不過以和top相反的順序返回元素
saveAsTextFile(path)	將數(shù)據(jù)集的元素以textfile的形式保存到HDFS文件系統(tǒng)或者其他支持的文件系統(tǒng)，對(duì)于每個(gè)元素，Spark將會(huì)調(diào)用toString方法，將它裝換為文件中的文本
saveAsSequenceFile(path)	將數(shù)據(jù)集中的元素以Hadoop sequencefile的格式保存到指定的目錄下，可以使HDFS或者其他Hadoop支持的文件系統(tǒng)。
saveAsObjectFile(path)
countByKey()	針對(duì)(K,V)類型的RDD，返回一個(gè)(K,Int)的map，表示每一個(gè)key對(duì)應(yīng)的元素個(gè)數(shù)。
foreach(func)	在數(shù)據(jù)集的每一個(gè)元素上，運(yùn)行函數(shù)func進(jìn)行更新。

RDD支持兩種操作:轉(zhuǎn)化操作和行動(dòng)操作。RDD 的轉(zhuǎn)化操作是返回一個(gè)新的 RDD的操作，比如 map()和 filter()，而行動(dòng)操作則是向驅(qū)動(dòng)器程序返回結(jié)果或把結(jié)果寫入外部系統(tǒng)的操作。比如 count() 和 first()。

Spark采用惰性計(jì)算模式，RDD只有第一次在一個(gè)行動(dòng)操作中用到時(shí)，才會(huì)真正計(jì)算。Spark可以優(yōu)化整個(gè)計(jì)算過程。默認(rèn)情況下，Spark 的 RDD 會(huì)在你每次對(duì)它們進(jìn)行行動(dòng)操作時(shí)重新計(jì)算。如果想在多個(gè)行動(dòng)操作中重用同一個(gè) RDD，可以使用 RDD.persist() 讓 Spark 把這個(gè) RDD 緩存下來。

Transformation算子****

RDD中的所有轉(zhuǎn)換都是延遲加載的，也就是說，它們并不會(huì)直接計(jì)算結(jié)果。相反的，它們只是記住這些應(yīng)用到基礎(chǔ)數(shù)據(jù)集（例如一個(gè)文件）上的轉(zhuǎn)換動(dòng)作。只有當(dāng)發(fā)生一個(gè)要求返回結(jié)果給Driver的動(dòng)作時(shí)，這些轉(zhuǎn)換才會(huì)真正運(yùn)行。這種設(shè)計(jì)讓Spark更加有效率地運(yùn)行。

轉(zhuǎn)換	含義
map(func)	返回一個(gè)新的RDD，該RDD由每一個(gè)輸入元素經(jīng)過func函數(shù)轉(zhuǎn)換后組成
filter(func)	返回一個(gè)新的RDD，該RDD由經(jīng)過func函數(shù)計(jì)算后返回值為true的輸入元素組成
flatMap(func)	類似于map，但是每一個(gè)輸入元素可以被映射為0或多個(gè)輸出元素（所以func應(yīng)該返回一個(gè)序列，而不是單一元素）
mapPartitions(func)	類似于map，但獨(dú)立地在RDD的每一個(gè)分片上運(yùn)行，因此在類型為T的RDD上運(yùn)行時(shí)，func的函數(shù)類型必須是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	類似于mapPartitions，但func帶有一個(gè)整數(shù)參數(shù)表示分片的索引值，因此在類型為T的RDD上運(yùn)行時(shí)，func的函數(shù)類型必須是(Int, Iterator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根據(jù)fraction指定的比例對(duì)數(shù)據(jù)進(jìn)行采樣，可以選擇是否使用隨機(jī)數(shù)進(jìn)行替換，seed用于指定隨機(jī)數(shù)生成器種子
union(otherDataset)	對(duì)源RDD和參數(shù)RDD求并集后返回一個(gè)新的RDD
intersection(otherDataset)	對(duì)源RDD和參數(shù)RDD求交集后返回一個(gè)新的RDD
distinct([numTasks]))	對(duì)源RDD進(jìn)行去重后返回一個(gè)新的RDD
groupByKey([numTasks])	在一個(gè)(K,V)的RDD上調(diào)用，返回一個(gè)(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])	在一個(gè)(K,V)的RDD上調(diào)用，返回一個(gè)(K,V)的RDD，使用指定的reduce函數(shù)，將相同key的值聚合到一起，與groupByKey類似，reduce任務(wù)的個(gè)數(shù)可以通過第二個(gè)可選的參數(shù)來設(shè)置
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])	相同的Key值進(jìn)行聚合操作，在聚合過程中同樣使用了一個(gè)中立的初始值z(mì)eroValue:中立值,定義返回value的類型，并參與運(yùn)算seqOp:用來在同一個(gè)partition中合并值combOp:用來在不同partiton中合并值
sortByKey([ascending], [numTasks])	在一個(gè)(K,V)的RDD上調(diào)用，K必須實(shí)現(xiàn)Ordered接口，返回一個(gè)按照key進(jìn)行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])	與sortByKey類似，但是更靈活
join(otherDataset, [numTasks])	在類型為(K,V)和(K,W)的RDD上調(diào)用，返回一個(gè)相同key對(duì)應(yīng)的所有元素對(duì)在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])	在類型為(K,V)和(K,W)的RDD上調(diào)用，返回一個(gè)(K,(Iterable,Iterable))類型的RDD
cartesian(otherDataset)	笛卡爾積
pipe(command, [envVars])	將一些shell命令用于Spark中生成新的RDD
coalesce(numPartitions)	重新分區(qū)
repartition(numPartitions)	重新分區(qū)
repartitionAndSortWithinPartitions(partitioner)	重新分區(qū)和排序

** Action算子**

在RDD上運(yùn)行計(jì)算,并返回結(jié)果給Driver或?qū)懭胛募到y(tǒng)

動(dòng)作	含義
reduce(func)	通過func函數(shù)聚集RDD中的所有元素，這個(gè)功能必須是可交換且可并聯(lián)的
collect()	在驅(qū)動(dòng)程序中，以數(shù)組的形式返回?cái)?shù)據(jù)集的所有元素
count()	返回RDD的元素個(gè)數(shù)
first()	返回RDD的第一個(gè)元素（類似于take(1)）
take(n)	返回一個(gè)由數(shù)據(jù)集的前n個(gè)元素組成的數(shù)組
takeSample(withReplacement,num, [seed])	返回一個(gè)數(shù)組，該數(shù)組由從數(shù)據(jù)集中隨機(jī)采樣的num個(gè)元素組成，可以選擇是否用隨機(jī)數(shù)替換不足的部分，seed用于指定隨機(jī)數(shù)生成器種子
takeOrdered(n, [ordering])	takeOrdered和top類似，只不過以和top相反的順序返回元素
saveAsTextFile(path)	將數(shù)據(jù)集的元素以textfile的形式保存到HDFS文件系統(tǒng)或者其他支持的文件系統(tǒng)，對(duì)于每個(gè)元素，Spark將會(huì)調(diào)用toString方法，將它裝換為文件中的文本
saveAsSequenceFile(path)	將數(shù)據(jù)集中的元素以Hadoop sequencefile的格式保存到指定的目錄下，可以使HDFS或者其他Hadoop支持的文件系統(tǒng)。
saveAsObjectFile(path)
countByKey()	針對(duì)(K,V)類型的RDD，返回一個(gè)(K,Int)的map，表示每一個(gè)key對(duì)應(yīng)的元素個(gè)數(shù)。
foreach(func)	在數(shù)據(jù)集的每一個(gè)元素上，運(yùn)行函數(shù)func進(jìn)行更新。

感謝各位的閱讀，以上就是“創(chuàng)建RDD的方式有哪些”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對(duì)創(chuàng)建RDD的方式有哪些這一問題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何通過Zoho Books門戶管理供應(yīng)商
下一篇新聞：
mysql中出現(xiàn)1053錯(cuò)誤怎么辦

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼