溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中Spark實(shí)戰(zhàn)技巧是什么

發(fā)布時(shí)間:2021-12-17 10:29:35 來源:億速云 閱讀:125 作者:柒染 欄目:大數(shù)據(jù)

本篇文章給大家分享的是有關(guān)大數(shù)據(jù)中Spark實(shí)戰(zhàn)技巧是什么,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

1.連接mysql

--driver-class-path mysql-connector-java-5.1.21.jar 在數(shù)據(jù)庫(kù)中,SET GLOBAL binlog_format=mixed;

2.Spark中 使用Hive的udf

同樣使用—jars 才行

3.Spark jupyter使用

https://www.jb51.net/article/163641.htm

https://my.oschina.net/albert2011/blog/754174

使用jupyter-notebook --ip hostname -i來啟動(dòng)

4.Spark使用hive的orc解析格式

spark.sql.hive.convertMetastoreOrc=true

使用spark寫入hive表中的數(shù)據(jù),可能會(huì)出現(xiàn)空指針問題或者數(shù)據(jù)越界問題,問題原因是spark的元數(shù)據(jù)解析問題,而不是hive的元數(shù)據(jù)解析問題

5.row_number排序算子的使用

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number
import org.apache.spark.sql.functions._

1.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(col("f_modify_time").desc))) 2.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-col("f_modify_time"))))

3.val df = spark.sql(sql)

df.withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-df("f_modify_time"))))

4.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-'f_modify_time)))

注意:-的方式,經(jīng)過測(cè)試,不穩(wěn)定,有時(shí)可以,有時(shí)不可以

6.broadcast廣播表

sc.broadcast是廣播數(shù)據(jù),一般用于rdd廣播,而下面的方式用于廣播表

import org.apache.spark.sql.functions.broadcast

broadcast(tableData).createOrReplaceTempView 

以上就是大數(shù)據(jù)中Spark實(shí)戰(zhàn)技巧是什么,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI