您好,登錄后才能下訂單哦!
這篇文章主要講解了“大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)”吧!
大數(shù)據(jù)本質(zhì)也是數(shù)據(jù),但是又有了新的特征,包括數(shù)據(jù)來源廣、數(shù)據(jù)格式多樣化(結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、Excel文件、文本文件等)、數(shù)據(jù)量大(最少也是TB級別的、甚至可能是PB級別)、數(shù)據(jù)增長速度快等。
通過幾個問題了解我們應(yīng)該學(xué)習(xí)那些技術(shù):
數(shù)據(jù)來源廣,該如何采集匯總?,對應(yīng)出現(xiàn)了Sqoop,Cammel,Datax等工具。
數(shù)據(jù)采集之后,該如何存儲?,對應(yīng)出現(xiàn)了GFS,HDFS,TFS等分布式文件存儲系統(tǒng)。
數(shù)據(jù)存儲之后,該如何快速運算出自己想要的結(jié)果?對應(yīng)的MapReduce這樣的分布式運算框架解決了這個問題;但是寫MapReduce需要Java代碼量很大,所以出現(xiàn)了Hive,Pig等將SQL轉(zhuǎn)化成MapReduce的解析引擎;普通的MapReduce處理數(shù)據(jù)只能一批一批地處理,時間延遲太長,為了實現(xiàn)每輸入一條數(shù)據(jù)就能得到結(jié)果,于是出現(xiàn)了Storm/JStorm這樣的低時延的流式計算框架;但是如果同時需要批處理和流處理,按照如上就得搭兩個集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出現(xiàn)了Spark這樣的一站式的計算框架,既可以進行批處理,又可以進行流處理(實質(zhì)上是微批處理)。而后Lambda架構(gòu),Kappa架構(gòu)的出現(xiàn),又提供了一種業(yè)務(wù)處理的通用架構(gòu)。
為了提高工作效率我們應(yīng)該掌握哪些工具:
Ozzie,azkaban:定時任務(wù)調(diào)度的工具。
Hue,Zepplin:圖形化任務(wù)執(zhí)行管理,結(jié)果查看工具。
Scala語言:編寫Spark程序的最佳語言,當然也可以選擇用Python。
Python語言:編寫一些腳本時會用到。
Allluxio,Kylin等:通過對存儲的數(shù)據(jù)進行預(yù)處理,加快運算速度的工具。
感謝各位的閱讀,以上就是“大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。