3分鐘讓你讀懂Hadoop都做了什么

發(fā)布時間：2020-06-25 05:16:41 來源：網(wǎng)絡閱讀：325 作者：編程南風欄目：大數(shù)據(jù)

寫這篇文章的原因是給那些看了很多干貨，但是覺得說的太多，對于剛?cè)腴T的同學看起來是比較枯燥的事情，那么筆者就對此總結(jié)了hadoop簡潔版。希望能夠幫助初學的小伙伴。分享之前我還是要推薦下我自己創(chuàng)建的大數(shù)據(jù)學習交流Qun: 710219868 進Qun聊邀請碼填寫南風（必填）我就知道是你了

Hadoop可以說是大數(shù)據(jù)儲存和計算的開山鼻祖了，現(xiàn)在大多數(shù)的開源框架都依賴于Hadoop，或者能與它更好的兼容。

Hadoop的由來：

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

Hadoop實現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，并且設(shè)計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

hadoop的核心總共有兩個：HDFS(為海量數(shù)據(jù)提供儲存)、MapReduce(為海量數(shù)據(jù)提供了計算)
hadoop的優(yōu)點: 是一個能對大數(shù)據(jù)進行分布式處理的軟件框架、是一種可靠、高效、高伸縮的方式進行處理數(shù)據(jù).
哪里可靠：因為它假設(shè)了計算元素或儲存失敗，因此它維護了多個工作數(shù)據(jù)和副本，確保能夠針對失敗的節(jié)點進行重新分布處理
哪里高效：因為它是以并行的方式進行工作，通過并行處理加快處理速度
還是可伸縮的，因為可以處理PB級數(shù)據(jù)
那么說了這么多干貨，究竟hadoop是干嘛的。具體能做什么呢

hadoop就是適用于大數(shù)據(jù)存儲和大數(shù)據(jù)分析的應用，適用于幾千臺或者幾萬臺服務器的集群運行，支持PB級的存儲容量。

hadoop提供了什么功能呢？

        利用服務器集群，根據(jù)用戶自定義的業(yè)務邏輯對海量數(shù)據(jù)進行分布式處理！

hadoop運用于什么場景呢？

        目前最典型是運用于對 數(shù)據(jù)量特別大、數(shù)據(jù)類型復雜，無法用傳統(tǒng)數(shù)據(jù)庫進行儲存和處理的的文本、日志、視頻、圖片、地理位置等.

技術(shù)介紹：

HDFS：
那么顧名思義大數(shù)據(jù)首先是要把數(shù)據(jù)儲存下來。而HDFS的設(shè)計本質(zhì)就是為了大量數(shù)據(jù)能夠橫跨成千上萬個服務器存儲。

    比如說你獲取了/hdfs/tmp/a1的數(shù)據(jù)，雖然你看到的只是一個路徑的數(shù)據(jù)，但是很可能這個數(shù)據(jù)存儲在很多不同的機器上。

作為用戶根本不關(guān)注你這些數(shù)據(jù)儲存在了哪里和儲存在多少個地方，更多關(guān)注數(shù)據(jù)的使用和處理，這些就要交給HDFS管理。

MapReduce：
那么我們能夠存儲數(shù)據(jù)了，就要考慮如何處理數(shù)據(jù)了，一臺計算機處理T或者P以上的數(shù)據(jù)可能需要好幾天，這種效率明顯公司是不能接受的，但是我們?nèi)绻褂煤芏嗯_計算機處理的話就面臨了計算機之間如何分配的任務，如何通信、數(shù)據(jù)交換。這就是MapReduce/Spack要處理的問題了。提供了可靠的能在集群上運行的計算模型。

Hive:
簡單來說就是程序員在寫MapReduce程序的時候發(fā)現(xiàn)很麻煩，但是可以通過Hive解決這個事情。

hive是通過SQL的方式自動把腳本或者SQL翻譯成MapReduce程序，然后丟給計算引擎去處理

因為SQL比較容易上手，容易修改，可能一兩行的SQL語句換成MapReduce可能幾十行，幾百行

上面介紹的就是數(shù)據(jù)倉庫的基本架構(gòu)了，底層是 HDFS，上面運行的是 MapReduce/Spark，在往上封裝的是Hive。

Storm：
想要更快的計算處理速度！Storm 是最流行的流計算平臺。流處理的思路就是在數(shù)據(jù)進入系統(tǒng)的時候就進行處理，基本無延遲。缺點是不靈活，必須事先直到需要統(tǒng)計的數(shù)據(jù)，數(shù)據(jù)流過就沒有了，沒法進行補算。因此它是個好東西，但還是無法代替上述體系的。

HBase:
HBase 是一個構(gòu)建與 HDFS 的分布式，面向列的存儲系統(tǒng)。以 key value 對的方式存儲數(shù)據(jù)并對存取操作做了優(yōu)化，能夠飛快的根據(jù) key 獲取綁定的數(shù)據(jù)。例如從幾個 P 的數(shù)據(jù)中找×××號只需要零點幾秒。

向AI問一下細節(jié)

3分鐘讓你讀懂Hadoop都做了什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽