基于CDP7.1.3的Spark3.0有什么特性

發(fā)布時間：2021-12-14 09:20:53 來源：億速云閱讀：327 作者：小新欄目：大數(shù)據(jù)

這篇文章主要介紹了基于CDP7.1.3的Spark3.0有什么特性，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

Cloudera正式宣布發(fā)布CDS3，基于Apache Spark 3.0.1，參考：

https://spark.apache.org/news/spark-3-0-1-released.html

這是一個正式版本，可以生產(chǎn)系統(tǒng)中使用。而且這個版本受Cloudera Support支持。

以下是Spark3的關(guān)鍵新特性：

1.Spark3的TPC-DS性能進(jìn)一步提升；

2.語言支持

a)Scala version is upgraded to 2.12

b)JDK11 is fully supported.

c)Python3.6+ is supported. Python 2 and Python 3 prior to version 3.6 are deprecated

3.Adaptive execution of Spark SQL

a)對于AQE而言，最重要的問題就是什么時候去重新計算優(yōu)化執(zhí)行計劃。Spark任務(wù)的算子如果管道排列，依次并行執(zhí)行。然而，shuffle或者broadcast exchange會打斷算子的排列執(zhí)行，我們稱其為物化點（Materialization Points），并且用"Query Stages"來代表那些被物化點所分割的小片段。每個Query Stage會產(chǎn)出中間結(jié)果，當(dāng)且僅當(dāng)該stage及其并行的所有stage都執(zhí)行完成后，下游的Query Stage才能被執(zhí)行。所以當(dāng)上游部分stage執(zhí)行完成，partitions的統(tǒng)計數(shù)據(jù)也獲取到了，并且下游還未開始執(zhí)行，這就給AQE提供了reoptimization的機會。在查詢開始時，生成完了執(zhí)行計劃，AQE框架首先會找到并執(zhí)行那些不存在上游的stages。一旦這些stage有一個或多個完成，AQE框架就會將其在physical plan中標(biāo)記為完成，并根據(jù)已完成的stages提供的執(zhí)行數(shù)據(jù)來更新整個logical plan?；谶@些新產(chǎn)出的統(tǒng)計數(shù)據(jù)，AQE框架會執(zhí)行optimizer，根據(jù)一系列的優(yōu)化規(guī)則來進(jìn)行優(yōu)化；AQE框架還會執(zhí)行生成普通physical plan的optimizer以及自適應(yīng)執(zhí)行專屬的優(yōu)化規(guī)則，例如分區(qū)合并、數(shù)據(jù)傾斜處理等。于是，我們就獲得了最新優(yōu)化過的執(zhí)行計劃和一些已經(jīng)執(zhí)行完成的stages，至此為一次循環(huán)。接著我們只需要繼續(xù)重復(fù)上面的步驟，直到整個query都跑完。

基于CDP7.1.3的Spark3.0有什么特性

4.Dynamic Partition Pruning (DPP)

a)Spark 3.0引入了動態(tài)分區(qū)裁剪功能，這是SQL分析工作負(fù)載的一項重大性能改進(jìn)。DPP背后的想法是將維度表上的篩選器集直接應(yīng)用到事實表上，以便跳過掃描不需要的分區(qū)。DPP的優(yōu)化是在邏輯計劃優(yōu)化和物理計劃上實現(xiàn)的。它大大增強了許多TPC-DS查詢的速度，并且可以很好的適應(yīng)星型模型，而無需對表進(jìn)行反范式化(Denormalization)。

基于CDP7.1.3的Spark3.0有什么特性

5.Binary files data source

a)Spark 3.0支持二進(jìn)制文件數(shù)據(jù)源。它可以讀取二進(jìn)制文件，并將每個文件轉(zhuǎn)換為包含文件原始內(nèi)容和元數(shù)據(jù)的一行。

6.DataSource V2 Improvements

a)Pluggable catalog integration

b)改進(jìn)謂詞下推功能，可通過減少數(shù)據(jù)加載來加快查詢速度

7.YARN Features

a)Spark 3.0可以自動在YARN集群上發(fā)現(xiàn)GPU，并將任務(wù)調(diào)度到指定的GPU節(jié)點。

8.Kafka connector delegation token (0.10+)

a)對應(yīng)用只需要配置Spark的參數(shù)就可以完成認(rèn)證登錄，而不是非需要使用JAAS配置登錄。

該試驗版本不支持以下組件：

Hive Warehouse Connector
Kudu
HBase Connector
Oozie
Livy
Zeppelin

參考文檔：

https://docs.cloudera.com/cdp-private-cloud-base/7.1.3/cds-3/topics/spark-spark-3-overview.html

下載地址：

http://archive.cloudera.com/p/spark3/3.0.7110.0/csd/SPARK3_ON_YARN-3.0.1.3.0.7110.0-81.jarhttps://archive.cloudera.com/p/spark3/3.0.7110.0/csd/LIVY_FOR_SPARK3-0.6.0.3.0.7110.0-81.jarhttp://archive.cloudera.com/p/spark3/3.0.7110.0/parcels/

感謝你能夠認(rèn)真閱讀完這篇文章，希望小編分享的“基于CDP7.1.3的Spark3.0有什么特性”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關(guān)注億速云行業(yè)資訊頻道，更多相關(guān)知識等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

基于CDP7.1.3的Spark3.0有什么特性

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽