spark概述與編程模型

發(fā)布時間：2020-08-26 21:39:16 來源：網(wǎng)絡(luò) 閱讀：710 作者：jethai 欄目：大數(shù)據(jù)

spark快的原因
1.內(nèi)存計算

2.DAG

spark shell已經(jīng)初始化好了SparkContext，直接用sc調(diào)用即可

spark概述與編程模型

lineage 血統(tǒng)

RDD wide and narrow dependencies

窄依賴每個 RDD partition最多被一個子RDD partirion依賴

spark概述與編程模型

/sbin（system binary)放的都是涉及系統(tǒng)管理的命令。
有些系統(tǒng)里面，普通用戶沒有執(zhí)行這些命令的權(quán)限。
有些系統(tǒng)里面，普通用戶的PATH不包括/sbin

data.cache 數(shù)據(jù)放到內(nèi)存中

spark-submit提交任務(wù)

spark概述與編程模型

scala代碼

package cn.chinahadoop.spark

import org.apache.spark.{SparkContext, SparkConf}
import scala.collection.mutable.ListBuffer
import org.apache.spark.SparkContext._

/**
 * Created by chenchao on 14-3-1.
 */
class Analysis {

}

object Analysis{

  def main(args : Array[String]){

    if(args.length != 2){
      println("Usage : java -jar code.jar  file_location save_location")
      System.exit(0)
    }

   

    val conf = new SparkConf()
    conf.setSparkHome("/data/software/crazyjvm/spark")
     

    val sc = new SparkContext(conf)
    val data = sc.textFile(args(0))

    data.cache

    println(data.count)

    data.filter(_.split(' ').length == 3).map(_.split(' ')(1)).map((_,1)).reduceByKey(_+_)
    .map(x => (x._2, x._1)).sortByKey(false).map( x => (x._2, x._1)).saveAsTextFile(args(1))
  }

}

向AI問一下細節(jié)

spark概述與編程模型

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽