溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Spark 1.4 新特性有哪些

發(fā)布時(shí)間:2021-12-16 18:53:35 來(lái)源:億速云 閱讀:144 作者:柒染 欄目:云計(jì)算

本篇文章為大家展示了Spark 1.4 新特性有哪些,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過(guò)這篇文章的詳細(xì)介紹希望你能有所收獲。

Spark 1.4 新特性概述

功能介紹Scala & Apache Spark

經(jīng)過(guò)4個(gè)RC版本,Spark 1.4最終還是趕在Spark Summit前發(fā)布了,本文簡(jiǎn)單談下本版本中那些非常重要的新feature和improvement.


SparkR就不細(xì)說(shuō)了,于data scientists而言,簡(jiǎn)直是望眼欲穿,千呼萬(wàn)喚始出來(lái)........ 這顯然要用單獨(dú)一篇文章來(lái)說(shuō)下 : )


Spark Core:

現(xiàn)在大家最關(guān)心什么?性能和運(yùn)維呀! 什么最影響性能?必須shuffle呀!什么是運(yùn)維第一要?jiǎng)?wù)?必須是監(jiān)控呀(就先不扯alert了)!1.4在這兩點(diǎn)都做足了功夫。 1.4中,Spark為應(yīng)用提供了REST API來(lái)獲取各種信息(jobs / stages / tasks / storage info),使用這個(gè)API搭建個(gè)自己的監(jiān)控簡(jiǎn)直是分分鐘的事情,不止于此,DAG現(xiàn)在也能可視化了,不清楚Spark的DAGScheduler怎么運(yùn)作的同學(xué),現(xiàn)在也能非常輕易地知道DAG細(xì)節(jié)了。再來(lái)說(shuō)說(shuō)shuffle, 大家都知道,從1.2開(kāi)始sort-based shuffle已經(jīng)成為默認(rèn)的shuffe策略了,基于sort的shuffle不需要同時(shí)打開(kāi)很多文件,并且也能減少中間文件的生成,但是帶來(lái)的問(wèn)題是在JVM的heap中留了大量的java對(duì)象,1.4開(kāi)始,shuffle的map階段的輸出會(huì)被序列化,這會(huì)帶來(lái)兩個(gè)好處:1、spill到磁盤(pán)上的文件變小了 2、GC效率大增 ,有人又會(huì)說(shuō),序列化反序列化會(huì)產(chǎn)生額外的cpu開(kāi)銷(xiāo)啊,事實(shí)上,shuffle過(guò)程往往都是IO密集型的操作,帶來(lái)的這點(diǎn)cpu開(kāi)銷(xiāo),是可以接受。


大家期待的鎢絲計(jì)劃(Project Tungsten)也在1.4初露鋒芒,引入了新的shuffle manager “UnsafeShuffleManager”, 來(lái)提供緩存友好的排序算法,及其它一些改進(jìn),目的是降低shuffle過(guò)程中的內(nèi)存使用量,并且加速排序過(guò)程。 鎢絲計(jì)劃必定會(huì)成為接下來(lái)兩個(gè)版本(1.5,1.6)重點(diǎn)關(guān)注的地方。


Spark Streaming:

Streaming在這個(gè)版本中增加了新的UI, 簡(jiǎn)直是Streaming用戶的福音啊,各種詳細(xì)信息盡收眼底。話說(shuō)Spark中國(guó)峰會(huì),TD當(dāng)時(shí)坐我旁邊review這部分的code,悄悄對(duì)說(shuō)我”this is awesome”。對(duì)了,這部分主要是由朱詩(shī)雄做的,雖然詩(shī)雄在峰會(huì)上放了我鴿子,但必須感謝他給我們帶來(lái)了這么好的特性!另外此版本也支持了0.8.2.x的Kafka版本。


Spark SQL(DataFrame)

支持老牌的ORCFile了,雖然比Parquet年輕,但是人家bug少啊 : ) 1.4提供了類(lèi)似于Hive中的window function,還是比較實(shí)用的。本次對(duì)于join的優(yōu)化還是比較給力的,特別是針對(duì)那種比較大的join,大家可以體會(huì)下。JDBC Server的用戶肯定非常開(kāi)心了,因?yàn)榻K于有UI可以看了呀。


Spark ML/MLlib

ML pipelines從alpha畢業(yè)了,大家對(duì)于ML pipelines的熱情還真的蠻高的啊。我對(duì)Personalized PageRank with GraphX倒是蠻感興趣的,與之相關(guān)的是recommendAll in matrix factorization model。 事實(shí)上大多數(shù)公司還是會(huì)在Spark上實(shí)現(xiàn)自己的算法。

上述內(nèi)容就是Spark 1.4 新特性有哪些,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI