您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“怎么用Spark求數(shù)據(jù)的最大值”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
1: 以前用過(guò)hadoop從文件中讀取數(shù)據(jù)求過(guò)最大值?,F(xiàn)在用Spark來(lái)求最大值。由于spark的資料比較少所以搞了半天才弄完。我親自測(cè)試在local狀態(tài)下14750778條數(shù)據(jù)用了10秒。
2:下載spark-0.9.1-bin-hadoop1并解壓到F:\BigData (Spark可以再Windows上運(yùn)行) 打開(kāi)目錄F:\BigData\spark-0.9.1-bin-hadoop1\assembly\target\scala-2.10把里面的spark-assembly_2.10-0.9.1-hadoop1.0.4.jar放到新建的工程里面就可以了。
準(zhǔn)備數(shù)據(jù):新建一個(gè)data文件在里面輸入如下內(nèi)容:
1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
2,3,5.0
2,4,1.0
3,1,1.0
3,2,5.0
3,3,1.0
3,4,5.0
4,1,1.0
4,2,5.0
4,3,1.0
4,4,5.0
1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
2,3,5.0
2,4,1.0
3,1,1.0
3,2,5.0
3,3,1.0
3,4,5.0
4,1,1.0
4,2,5.0
4,3,1.0
4,4,5.0
1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
數(shù)據(jù)之間用逗號(hào)分隔
打開(kāi)eclipse新建一個(gè)javaProject.
在任意包中書(shū)寫(xiě)如下內(nèi)容
package com.spark.test;
import java.util.Arrays;
import java.util.regex.Pattern;
import org.apache.spark.api.java.JavaDoubleRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.DoubleFunction;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
public final class Max {
private static final Pattern SPACE = Pattern.compile(",");
public static void main(String[] args) throws Exception {
// spark安裝目錄
String spark_home = "F:\\BigData\\spark-0.9.1-bin-hadoop1";
// "local" 代表了本地運(yùn)行模式
JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",
spark_home, JavaSparkContext.jarOfClass(JavaWordCount.class));
// 加載文件
JavaRDD<String> lines = ctx
.textFile(
"E:\\workspace\\spark\\src\\com\\spark\\resource\\test.data",
1);
// flatMap函數(shù)是把每一行根據(jù)分隔符把它變成多行。比如1,2,3 用逗號(hào)分隔用了flatMap后變成
// 1
// 2
// 3 .這一行的主要作用是把所有的數(shù)據(jù)放到JavaRDD里面
JavaRDD<String> words = lines
.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterable<String> call(String s) {
return Arrays.asList(SPACE.split(s));
}
});
// 把JavaRDD<String>類(lèi)型變成JavaDoubleRDD類(lèi)型的
JavaDoubleRDD one = words.map(new DoubleFunction<String>() {
@Override
public Double call(String s) throws Exception {
if (s.trim().length() == 0) {
s = "0";
}
return Double.parseDouble(s);
}
});
// 統(tǒng)計(jì)有多少條數(shù)據(jù)
System.out.println(one.count() + "%%%%%%%%");
// 求最大值.new Function2<Double, Double, Double>()
// 函數(shù)的3個(gè)參數(shù),第一個(gè)和第二個(gè)參數(shù)對(duì)應(yīng)call函數(shù)里面的第一個(gè)參數(shù)和第二個(gè)參數(shù)。第3個(gè)參數(shù)代表call函數(shù)的返回值類(lèi)型
Double max = one.rdd().reduce(new Function2<Double, Double, Double>() {
@Override
public Double call(Double i1, Double i2) throws Exception {
return Math.max(i1, i2);
}
});
System.out.println(max);
System.exit(0);
}
}
“怎么用Spark求數(shù)據(jù)的最大值”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。