您好,登錄后才能下訂單哦!
Action類算子也是一類算子(函數(shù))叫做行動算子,如foreach,collect,count等。Transformations類算子是延遲執(zhí)行,Action類算子是觸發(fā)執(zhí)行。一個(gè)application應(yīng)用程序(就是我們編寫的一個(gè)應(yīng)用程序)中有幾個(gè)Action類算子執(zhí)行,就有幾個(gè)job運(yùn)行。
通過函數(shù)func聚集數(shù)據(jù)集中的所有元素,這個(gè)函數(shù)必須是關(guān)聯(lián)性的,確??梢员徽_的并發(fā)執(zhí)行
scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at makeRDD at <console>:24
scala> rdd1.reduce(_+_)
res3: Int = 55
在driver的程序中,以數(shù)組的形式,返回?cái)?shù)據(jù)集的所有元素,這通常會在使用filter或者其它操作后,返回一個(gè)足夠小的數(shù)據(jù)子集再使用
scala> var rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at makeRDD at <console>:24
scala> rdd1.collect
res2: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
返回?cái)?shù)據(jù)集的元素個(gè)數(shù)
scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at makeRDD at <console>:24
scala> rdd1.count
res4: Long = 10
返回?cái)?shù)據(jù)集的第一個(gè)元素(類似于take(1))
scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at <console>:24
scala> rdd1.first
res5: Int = 1
返回一個(gè)數(shù)組,由數(shù)據(jù)集的前n個(gè)元素組成。注意此操作目前并非并行執(zhí)行的,而是driver程序所在機(jī)器
scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[7] at makeRDD at <console>:24
scala> rdd1.take(3)
res6: Array[Int] = Array(1, 2, 3)
withReplacement:結(jié)果中是否可重復(fù)
num:取多少個(gè)
seed:隨機(jī)種子
返回一個(gè)數(shù)組,在數(shù)據(jù)集中隨機(jī)采樣num個(gè)元素組成,可以選擇是否用隨機(jī)數(shù)替換不足的部分,seed用于指定的隨機(jī)數(shù)生成器種子
原理
takeSample()函數(shù)和sample函數(shù)是一個(gè)原理,但是不使用相對比例采樣,而是按設(shè)定的采樣個(gè)數(shù)進(jìn)行采樣,同時(shí)返回結(jié)果不再是RDD,而是相當(dāng)于對采樣后的數(shù)據(jù)進(jìn)行collect(),返回結(jié)果的集合為單機(jī)的數(shù)組
scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[20] at makeRDD at <console>:24
scala> rdd1.takeSample(true,4,10)
res19: Array[Int] = Array(10, 10, 2, 3)
takeOrdered和top類似,只不過以和top相反的順序返回元素。
top默認(rèn)倒序,taskOrdered默認(rèn)正序
top方法其實(shí)就是調(diào)用的taskOrdered,然后反轉(zhuǎn)的結(jié)果
def top(num: Int)(implicit ord: Ordering[T]): Array[T] = withScope {
takeOrdered(num)(ord.reverse)
}
scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at makeRDD at <console>:24
scala> rdd1.top(5)
res22: Array[Int] = Array(10, 9, 8, 7, 6)
scala> rdd1.takeOrdered(5)
res23: Array[Int] = Array(1, 2, 3, 4, 5)
saveAsTextFile用于將RDD以文本文件的格式存儲到文件系統(tǒng)中
val conf = new SparkConf()
.setAppName("saveFile")
.setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd1: RDD[Int] = sc.parallelize(1 to 10)
rdd1.repartition(1).saveAsTextFile("/tmp/fff")
saveAsSequenceFile用于將RDD以SequenceFile的文件格式保存到HDFS上。使用方法和saveAsTextFile類似
saveAsObjectFile用于將RDD中的元素序列化成對象,存儲到文件中。使用方法和saveAsTextFile類似
對(K,V)類型的RDD有效,返回一個(gè)(K,Int)對的map,表示每一個(gè)可以對應(yīng)的元素個(gè)數(shù)
scala> val rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[3] at makeRDD at <console>:24
scala> rdd1.countByKey
res1: scala.collection.Map[String,Long] = Map(B -> 2, A -> 2, C -> 1)
在數(shù)據(jù)集的每一個(gè)元素上,運(yùn)行函數(shù)func,t通常用于更新一個(gè)累加器變量,或者和外部存儲系統(tǒng)做交互
scala> val rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[9] at makeRDD at <console>:24
scala> rdd1.collect.foreach(println(_))
(A,0)
(A,2)
(B,1)
(B,2)
(C,3)
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。