Spark 1.4 新特性有哪些

發(fā)布時(shí)間：2021-12-16 18:53:35 來(lái)源：億速云閱讀：144 作者：柒染欄目：云計(jì)算

本篇文章為大家展示了Spark 1.4 新特性有哪些，內(nèi)容簡(jiǎn)明扼要并且容易理解，絕對(duì)能使你眼前一亮，通過(guò)這篇文章的詳細(xì)介紹希望你能有所收獲。

Spark 1.4 新特性概述

功能介紹Scala & Apache Spark

經(jīng)過(guò)4個(gè)RC版本，Spark 1.4最終還是趕在Spark Summit前發(fā)布了，本文簡(jiǎn)單談下本版本中那些非常重要的新feature和improvement.

SparkR就不細(xì)說(shuō)了，于data scientists而言，簡(jiǎn)直是望眼欲穿，千呼萬(wàn)喚始出來(lái)........ 這顯然要用單獨(dú)一篇文章來(lái)說(shuō)下 : )

Spark Core:

現(xiàn)在大家最關(guān)心什么？性能和運(yùn)維呀！什么最影響性能？必須shuffle呀！什么是運(yùn)維第一要?jiǎng)?wù)?必須是監(jiān)控呀(就先不扯alert了)！1.4在這兩點(diǎn)都做足了功夫。 1.4中，Spark為應(yīng)用提供了REST API來(lái)獲取各種信息(jobs / stages / tasks / storage info)，使用這個(gè)API搭建個(gè)自己的監(jiān)控簡(jiǎn)直是分分鐘的事情，不止于此，DAG現(xiàn)在也能可視化了，不清楚Spark的DAGScheduler怎么運(yùn)作的同學(xué)，現(xiàn)在也能非常輕易地知道DAG細(xì)節(jié)了。再來(lái)說(shuō)說(shuō)shuffle, 大家都知道，從1.2開(kāi)始sort-based shuffle已經(jīng)成為默認(rèn)的shuffe策略了，基于sort的shuffle不需要同時(shí)打開(kāi)很多文件，并且也能減少中間文件的生成，但是帶來(lái)的問(wèn)題是在JVM的heap中留了大量的java對(duì)象，1.4開(kāi)始，shuffle的map階段的輸出會(huì)被序列化，這會(huì)帶來(lái)兩個(gè)好處：1、spill到磁盤(pán)上的文件變小了 2、GC效率大增，有人又會(huì)說(shuō)，序列化反序列化會(huì)產(chǎn)生額外的cpu開(kāi)銷(xiāo)啊，事實(shí)上，shuffle過(guò)程往往都是IO密集型的操作，帶來(lái)的這點(diǎn)cpu開(kāi)銷(xiāo)，是可以接受。

大家期待的鎢絲計(jì)劃(Project Tungsten)也在1.4初露鋒芒，引入了新的shuffle manager “UnsafeShuffleManager”, 來(lái)提供緩存友好的排序算法，及其它一些改進(jìn)，目的是降低shuffle過(guò)程中的內(nèi)存使用量，并且加速排序過(guò)程。鎢絲計(jì)劃必定會(huì)成為接下來(lái)兩個(gè)版本(1.5,1.6)重點(diǎn)關(guān)注的地方。

Spark Streaming：

Streaming在這個(gè)版本中增加了新的UI，簡(jiǎn)直是Streaming用戶的福音啊，各種詳細(xì)信息盡收眼底。話說(shuō)Spark中國(guó)峰會(huì)，TD當(dāng)時(shí)坐我旁邊review這部分的code，悄悄對(duì)說(shuō)我”this is awesome”。對(duì)了，這部分主要是由朱詩(shī)雄做的，雖然詩(shī)雄在峰會(huì)上放了我鴿子，但必須感謝他給我們帶來(lái)了這么好的特性！另外此版本也支持了0.8.2.x的Kafka版本。

Spark SQL(DataFrame)

支持老牌的ORCFile了，雖然比Parquet年輕，但是人家bug少啊 : ) 1.4提供了類(lèi)似于Hive中的window function，還是比較實(shí)用的。本次對(duì)于join的優(yōu)化還是比較給力的，特別是針對(duì)那種比較大的join，大家可以體會(huì)下。JDBC Server的用戶肯定非常開(kāi)心了，因?yàn)榻K于有UI可以看了呀。

Spark ML/MLlib

ML pipelines從alpha畢業(yè)了，大家對(duì)于ML pipelines的熱情還真的蠻高的啊。我對(duì)Personalized PageRank with GraphX倒是蠻感興趣的，與之相關(guān)的是recommendAll in matrix factorization model。事實(shí)上大多數(shù)公司還是會(huì)在Spark上實(shí)現(xiàn)自己的算法。

上述內(nèi)容就是Spark 1.4 新特性有哪些，你們學(xué)到知識(shí)或技能了嗎？如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

Spark 1.4 新特性有哪些

Spark 1.4 新特性概述

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽