溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

spark線上用哪個版本好

發(fā)布時間:2021-12-16 14:31:54 來源:億速云 閱讀:154 作者:iii 欄目:云計算

這篇文章主要介紹“spark線上用哪個版本好”,在日常操作中,相信很多人在spark線上用哪個版本好問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”spark線上用哪個版本好”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

Q1:spark線上用什么版本好?

  • 建議從最低使用的Spark 1.0.0版本,Spark在1.0.0開始核心API已經(jīng)穩(wěn)定;

  • 從功能的角度考慮使用最新版本的Spark 1.0.2也是非常好的,Spark 1.0.2在Spark 1.0.1的基礎上做了非常多的改進;


Q2:希望可以細細講講推薦系統(tǒng)

  • 推薦系統(tǒng)是機器學習中主要用武之地,Spark亞太研究院決勝大數(shù)據(jù)時代100期公益大講堂后續(xù)會至少開設三期專題細細講解;

Q3:用yarn  mesos  standalone   這幾種方式那種用在線上好?spark線上用什么版本好?

  • 如果以前沒有部署過其它的大數(shù)據(jù)集群,集群中的計算框架只有Spark,建議直接使用Standalone,簡潔而高效,這樣有利于獲得最大化的集群執(zhí)行效率;

  • 如果集群中在運行Spark計算平臺的同時還運行了Hadoop的MapReduce、Storm等其它框架,建議使用mesos或者yarn;

  • 在中國建議使用Yarn,因為淘寶已經(jīng)在生產(chǎn)環(huán)境下大規(guī)模的使用了Yarn,同時Yarn有非常的中文資料;

Q4:機器學習是不是需要很深的數(shù)學功底還是別人實現(xiàn)了 能運行跑起來就ok啦??

  • Spark的MLLib極大的簡化了機器學習庫的使用,如果只是簡單的使用,不要數(shù)學功底,只需要按照官方的示例直接使用即可。

  • 如果進行復制的算法實現(xiàn),需要數(shù)學功底,例如線性代數(shù)、統(tǒng)計學等

Q5:還是要深入學習機器學習的那些算法?

  • 從實際應用的角度考慮,最重要的機器學習算法時協(xié)同過濾,基于協(xié)同過濾的推薦系統(tǒng)在應用系統(tǒng)中有廣泛的應用,需要最為第一重點掌握;

  • 分類、聚類、線性回歸等也是非常常用而重要的;


     

Q6:請教下,如果目前應用主要是結(jié)構化數(shù)據(jù)的ORCALE,語言是PLSQL,轉(zhuǎn)換到SPARKSQL是否難度很大,需要完全代碼重寫呢?

  • 在實際生產(chǎn)環(huán)境下,數(shù)據(jù)和大數(shù)據(jù)系統(tǒng)是并行存在的,數(shù)據(jù)庫一般直接負責線上交互,大數(shù)據(jù)系統(tǒng)負責數(shù)據(jù)分析、實時流處理、交互式查詢等;

  • 如果熟練使用PLSQL,可以輕而易舉的掌握Spark SQL

到此,關于“spark線上用哪個版本好”的學習就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關知識,請繼續(xù)關注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI