大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)

發(fā)布時間：2022-01-10 10:27:31 來源：億速云閱讀：147 作者：iii 欄目：編程語言

這篇文章主要講解了“大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)”吧！

　　大數(shù)據(jù)本質(zhì)也是數(shù)據(jù)，但是又有了新的特征，包括數(shù)據(jù)來源廣、數(shù)據(jù)格式多樣化(結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、Excel文件、文本文件等)、數(shù)據(jù)量大(最少也是TB級別的、甚至可能是PB級別)、數(shù)據(jù)增長速度快等。

　　通過幾個問題了解我們應(yīng)該學(xué)習(xí)那些技術(shù)：

　　數(shù)據(jù)來源廣，該如何采集匯總?，對應(yīng)出現(xiàn)了Sqoop，Cammel，Datax等工具。

　　數(shù)據(jù)采集之后，該如何存儲?，對應(yīng)出現(xiàn)了GFS，HDFS，TFS等分布式文件存儲系統(tǒng)。

　　數(shù)據(jù)存儲之后，該如何快速運算出自己想要的結(jié)果?對應(yīng)的MapReduce這樣的分布式運算框架解決了這個問題;但是寫MapReduce需要Java代碼量很大，所以出現(xiàn)了Hive，Pig等將SQL轉(zhuǎn)化成MapReduce的解析引擎；普通的MapReduce處理數(shù)據(jù)只能一批一批地處理，時間延遲太長，為了實現(xiàn)每輸入一條數(shù)據(jù)就能得到結(jié)果，于是出現(xiàn)了Storm/JStorm這樣的低時延的流式計算框架；但是如果同時需要批處理和流處理，按照如上就得搭兩個集群，Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群，不易于管理，所以出現(xiàn)了Spark這樣的一站式的計算框架，既可以進行批處理，又可以進行流處理(實質(zhì)上是微批處理)。而后Lambda架構(gòu)，Kappa架構(gòu)的出現(xiàn)，又提供了一種業(yè)務(wù)處理的通用架構(gòu)。

　　為了提高工作效率我們應(yīng)該掌握哪些工具：

　　Ozzie，azkaban：定時任務(wù)調(diào)度的工具。

　　Hue，Zepplin：圖形化任務(wù)執(zhí)行管理，結(jié)果查看工具。

　　Scala語言：編寫Spark程序的最佳語言，當然也可以選擇用Python。

　　Python語言：編寫一些腳本時會用到。

　　Allluxio，Kylin等：通過對存儲的數(shù)據(jù)進行預(yù)處理，加快運算速度的工具。

感謝各位的閱讀，以上就是“大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

向AI問一下細節(jié)

大數(shù)據(jù)技術(shù)應(yīng)該怎么自學(xué)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽