您好,登錄后才能下訂單哦!
java-spark中有哪些常用法人算子?相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
Java主要應(yīng)用于:1. web開發(fā);2. Android開發(fā);3. 客戶端開發(fā);4. 網(wǎng)頁開發(fā);5. 企業(yè)級應(yīng)用開發(fā);6. Java大數(shù)據(jù)開發(fā);7.游戲開發(fā)等。
Spark的算子的分類
從大方向來說,Spark 算子大致可以分為以下兩類:
1)Transformation 變換/轉(zhuǎn)換算子:這種變換并不觸發(fā)提交作業(yè),完成作業(yè)中間過程處理。
Transformation 操作是延遲計算的,也就是說從一個RDD 轉(zhuǎn)換生成另一個 RDD 的轉(zhuǎn)換操作不是馬上執(zhí)行,需要等到有 Action 操作的時候才會真正觸發(fā)運算。
2)Action 行動算子:這類算子會觸發(fā) SparkContext 提交 Job 作業(yè)。
Action 算子會觸發(fā) Spark 提交作業(yè)(Job),并將數(shù)據(jù)輸出 Spark系統(tǒng)。
從小方向來說,Spark 算子大致可以分為以下三類:
1)Value數(shù)據(jù)類型的Transformation算子,這種變換并不觸發(fā)提交作業(yè),針對處理的數(shù)據(jù)項是Value型的數(shù)據(jù)。
2)Key-Value數(shù)據(jù)類型的Transfromation算子,這種變換并不觸發(fā)提交作業(yè),針對處理的數(shù)據(jù)項是Key-Value型的數(shù)據(jù)對。
3)Action算子,這類算子會觸發(fā)SparkContext提交Job作業(yè)。
引言
通常寫spark的程序用scala比較方便,畢竟spark的源碼就是用scala寫的。然而,目前java開發(fā)者特別多,尤其進行數(shù)據(jù)對接、上線服務(wù)的時候,這時候,就需要掌握一些spark在java中的使用方法了
一、map
map在進行數(shù)據(jù)處理、轉(zhuǎn)換的時候,不能更常用了
在使用map之前 首先要定義一個轉(zhuǎn)換的函數(shù) 格式如下:
Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的輸入類型 LabeledPoint是轉(zhuǎn)換后的輸出類型 @Override public LabeledPoint call(String row) throws Exception {//重寫call方法 String[] rowArr = row.split(","); int rowSize = rowArr.length; double[] doubleArr = new double[rowSize-1]; //除了第一位的lable外 其余的部分解析成double 然后放到數(shù)組中 for (int i = 1; i < rowSize; i++) { String each = rowArr[i]; doubleArr[i] = Double.parseDouble(each); } //用剛才得到的數(shù)據(jù) 轉(zhuǎn)成向量 Vector feature = Vectors.dense(doubleArr); double label = Double.parseDouble(rowArr[0]); //構(gòu)造用于分類訓(xùn)練的數(shù)據(jù)格式 LabelPoint LabeledPoint point = new LabeledPoint(label, feature); return point; } };
需要特別注意的是:
1、call方法的輸入應(yīng)該是轉(zhuǎn)換之前的數(shù)據(jù)行的類型 返回值應(yīng)是處理之后的數(shù)據(jù)行類型
2、如果轉(zhuǎn)換方法中調(diào)用了自定義的類,注意該類名必須實現(xiàn)序列化 比如
public class TreeEnsemble implements Serializable { }
3、轉(zhuǎn)換函數(shù)中如果調(diào)用了某些類的對象,比如該方法需要調(diào)用外部的一個參數(shù),或者數(shù)值處理模型(標準化,歸一化等),則該對象需要聲明是final
然后就是在合適的時候調(diào)用該轉(zhuǎn)換函數(shù)了
JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);
這種方式是需要將普通的rdd轉(zhuǎn)成javaRDD才能使用的,轉(zhuǎn)成javaRDD的這一步操作不耗時,不用擔心
二、filter
在避免數(shù)據(jù)出現(xiàn)空值、0等場景中也非常常用,可以滿足sql中where的功能
這里首先也是要定義一個函數(shù),該函數(shù)給定數(shù)據(jù)行 返回布爾值 實際效果是將返回為true的數(shù)據(jù)保留
Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的輸入類型 Boolean是對應(yīng)的輸出類型 用于判斷數(shù)據(jù)是否保留 @Override public Boolean call(String row) throws Exception {//重寫call方法 boolean flag = row!=null; return flag; } };
通常該函數(shù)實際使用中需要修改的僅僅是row的類型 也就是數(shù)據(jù)行的輸入類型,和上面的轉(zhuǎn)換函數(shù)不同,此call方法的返回值應(yīng)是固定為Boolean
然后是調(diào)用方式
JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);
三、mapToPair
該方法和map方法有一些類似,也是對數(shù)據(jù)進行一些轉(zhuǎn)換。不過此函數(shù)輸入一行 輸出的是一個元組,最常用的方法是用來做交叉驗證 或者統(tǒng)計錯誤率 召回率 計算AUC等等
同樣,需要先定義一個轉(zhuǎn)換函數(shù)
Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是輸入類型 后面的兩個Object不要改動 @Override public Tuple2 call(LabeledPoint row) throws Exception {//重寫call方法 通常只改動輸入?yún)?shù) 輸出不要改動 double predicton = thismodel.predict(row.features()); double label = row.label(); return new Tuple2(predicton, label); } });
關(guān)于調(diào)用的類、類的對象,要求和之前的一致,類需要實現(xiàn)序列化,類的對象需要聲明成final類型
相應(yīng)的調(diào)用如下:
JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);
看完上述內(nèi)容,你們掌握java-spark中有哪些常用法人算子的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。