您好,登錄后才能下訂單哦!
這篇文章主要介紹“spark線上用哪個版本好”,在日常操作中,相信很多人在spark線上用哪個版本好問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”spark線上用哪個版本好”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
Q1:spark線上用什么版本好?
建議從最低使用的Spark 1.0.0版本,Spark在1.0.0開始核心API已經(jīng)穩(wěn)定;
從功能的角度考慮使用最新版本的Spark 1.0.2也是非常好的,Spark 1.0.2在Spark 1.0.1的基礎上做了非常多的改進;
Q2:希望可以細細講講推薦系統(tǒng)
推薦系統(tǒng)是機器學習中主要用武之地,Spark亞太研究院決勝大數(shù)據(jù)時代100期公益大講堂后續(xù)會至少開設三期專題細細講解;
Q3:用yarn mesos standalone 這幾種方式那種用在線上好?spark線上用什么版本好?
如果以前沒有部署過其它的大數(shù)據(jù)集群,集群中的計算框架只有Spark,建議直接使用Standalone,簡潔而高效,這樣有利于獲得最大化的集群執(zhí)行效率;
如果集群中在運行Spark計算平臺的同時還運行了Hadoop的MapReduce、Storm等其它框架,建議使用mesos或者yarn;
在中國建議使用Yarn,因為淘寶已經(jīng)在生產(chǎn)環(huán)境下大規(guī)模的使用了Yarn,同時Yarn有非常的中文資料;
Q4:機器學習是不是需要很深的數(shù)學功底還是別人實現(xiàn)了 能運行跑起來就ok啦??
Spark的MLLib極大的簡化了機器學習庫的使用,如果只是簡單的使用,不要數(shù)學功底,只需要按照官方的示例直接使用即可。
如果進行復制的算法實現(xiàn),需要數(shù)學功底,例如線性代數(shù)、統(tǒng)計學等
Q5:還是要深入學習機器學習的那些算法?
從實際應用的角度考慮,最重要的機器學習算法時協(xié)同過濾,基于協(xié)同過濾的推薦系統(tǒng)在應用系統(tǒng)中有廣泛的應用,需要最為第一重點掌握;
分類、聚類、線性回歸等也是非常常用而重要的;
Q6:請教下,如果目前應用主要是結(jié)構化數(shù)據(jù)的ORCALE,語言是PLSQL,轉(zhuǎn)換到SPARKSQL是否難度很大,需要完全代碼重寫呢?
在實際生產(chǎn)環(huán)境下,數(shù)據(jù)和大數(shù)據(jù)系統(tǒng)是并行存在的,數(shù)據(jù)庫一般直接負責線上交互,大數(shù)據(jù)系統(tǒng)負責數(shù)據(jù)分析、實時流處理、交互式查詢等;
如果熟練使用PLSQL,可以輕而易舉的掌握Spark SQL
到此,關于“spark線上用哪個版本好”的學習就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關知識,請繼續(xù)關注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。