<tt id="mjp6k"><strong id="mjp6k"></strong></tt>

<var id="mjp6k"></var>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

HADOOP概念是什么

發(fā)布時間：2021-12-22 14:27:52 來源：億速云閱讀：179 作者：iii 欄目：開發(fā)技術(shù)

本篇內(nèi)容主要講解“HADOOP概念是什么”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“HADOOP概念是什么”吧!

大數(shù)據(jù)：指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉，管理和處理的數(shù)據(jù)集合，是需要新模式才能具有更強(qiáng)大的決策力，洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量，高增長率和多樣化的信息資產(chǎn)

最小的基本單位是bit，按順序給出所有單位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576 KB 1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,048,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 BB = 1,024 YB = 1,048,576 ZB 1 NB = 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB

主要解決，海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計(jì)算問題

2 大數(shù)據(jù)的特點(diǎn)

1、大量。大數(shù)據(jù)的特征首先就體現(xiàn)為“大”，從先Map3時代，一個小小的MB級別的Map3就可以滿足很多人的需求，然而隨著時間的推移，存儲單位從過去的GB到TB，乃至現(xiàn)在的PB、EB級別。隨著信息技術(shù)的高速發(fā)展，數(shù)據(jù)開始爆發(fā)性增長。社交網(wǎng)絡(luò)（微博、推特、臉書）-、移動網(wǎng)絡(luò)、各種智能工具，服務(wù)工具等，都成為數(shù)據(jù)的來源。淘寶網(wǎng)近4億的會員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB；臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術(shù)，來統(tǒng)計(jì)、分析、預(yù)測和實(shí)時處理如此大規(guī)模的數(shù)據(jù)。

2、多樣。廣泛的數(shù)據(jù)來源，決定了大數(shù)據(jù)形式的多樣性。任何形式的數(shù)據(jù)都可以產(chǎn)生作用，目前應(yīng)用最廣泛的就是推薦系統(tǒng)，如淘寶，網(wǎng)易云音樂、今日頭條等，這些平臺都會通過對用戶的日志數(shù)據(jù)進(jìn)行分析，從而進(jìn)一步推薦用戶喜歡的東西。日志數(shù)據(jù)是結(jié)構(gòu)化明顯的數(shù)據(jù)，還有一些數(shù)據(jù)結(jié)構(gòu)化不明顯，例如圖片、音頻、視頻等，這些數(shù)據(jù)因果關(guān)系弱，就需要人工對其進(jìn)行標(biāo)注。

3、高速。大數(shù)據(jù)的產(chǎn)生非常迅速，主要通過互聯(lián)網(wǎng)傳輸。生活中每個人都離不開互聯(lián)網(wǎng)，也就是說每天個人每天都在向大數(shù)據(jù)提供大量的資料。并且這些數(shù)據(jù)是需要及時處理的，因?yàn)榛ㄙM(fèi)大量資本去存儲作用較小的歷史數(shù)據(jù)是非常不劃算的，對于一個平臺而言，也許保存的數(shù)據(jù)只有過去幾天或者一個月之內(nèi)，再遠(yuǎn)的數(shù)據(jù)就要及時清理，不然代價太大?；谶@種情況，大數(shù)據(jù)對處理速度有非常嚴(yán)格的要求，服務(wù)器中大量的資源都用于處理和計(jì)算數(shù)據(jù)，很多平臺都需要做到實(shí)時分析。數(shù)據(jù)無時無刻不在產(chǎn)生，誰的速度更快，誰就有優(yōu)勢。

4、價值。這也是大數(shù)據(jù)的核心特征?，F(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)中，有價值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù)，大數(shù)據(jù)最大的價值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中，挖掘出對未來趨勢與模式預(yù)測分析有價值的數(shù)據(jù)，并通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析，發(fā)現(xiàn)新規(guī)律和新知識，并運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等各個領(lǐng)域，從而最終達(dá)到改善社會治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究的效果

HADOOP背景介紹

1.1 什么是HADOOP

介紹官網(wǎng)hadoop.apache.com --> 看不懂可以使用百度翻譯

Apache Hadoop 為可靠的，可擴(kuò)展的分布式計(jì)算開發(fā)開源軟件。 Apache Hadoop軟件庫是一個框架，它允許使用簡單的編程模型跨計(jì)算機(jī)群集分布式處理大型數(shù)據(jù)集（海量的數(shù)據(jù)）。包括這些模塊：

? Hadoop Common：支持其他Hadoop模塊的常用工具。

? Hadoop分布式文件系統(tǒng)（HDFS?）：一種分布式文件系統(tǒng)，可提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。

? Hadoop YARN：作業(yè)調(diào)度和集群資源管理的框架。

? Hadoop MapReduce：一種用于并行處理大型數(shù)據(jù)集的基于YARN的系統(tǒng)。

上述每個模塊有自己獨(dú)立的功能，而模塊之間又有相互的關(guān)聯(lián)。

廣義上來說，HADOOP通常是指一個更廣泛的概念——HADOOP生態(tài)圈

1.2 HADOOP產(chǎn)生背景

雛形開始于2002年的Apache的Nutch，Nutch是一個開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎，包括網(wǎng)頁抓取、索引、查詢等功能，但隨著抓取網(wǎng)頁數(shù)量的增加，遇到了嚴(yán)重的可擴(kuò)展性問題--------“如何解決數(shù)十億網(wǎng)頁的存儲和索引問題”。

? 2003年Google發(fā)表了一篇技術(shù)學(xué)術(shù)論文谷歌文件系統(tǒng)（GFS）。GFS也就是google File System，google公司為了存儲海量搜索數(shù)據(jù)而設(shè)計(jì)的專用文件系統(tǒng)。

? 2004年Nutch創(chuàng)始人Doug Cutting基于Google的GFS論文實(shí)現(xiàn)了分布式文件存儲系統(tǒng)名為NDFS。

ps:2003-2004年，Google公開了部分GFS和Mapreduce思想的細(xì)節(jié)，以此為基礎(chǔ)Doug Cutting等人用了2年業(yè)余時間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制，一個微縮版：Nutch

? 2004年Google又發(fā)表了一篇技術(shù)學(xué)術(shù)論文MapReduce。MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行分析運(yùn)算。

? 2005年Doug Cutting又基于MapReduce，在Nutch搜索引擎實(shí)現(xiàn)了該功能。

?

國內(nèi)外HADOOP應(yīng)用案例介紹

? 大型網(wǎng)站W(wǎng)eb服務(wù)器的日志分析：一個大型網(wǎng)站的Web服務(wù)器集群，每5分鐘收錄的點(diǎn)擊日志高達(dá)800GB左右，峰值點(diǎn)擊每秒達(dá)到900萬次。每隔5分鐘將數(shù)據(jù)裝載到內(nèi)存中，高速計(jì)算網(wǎng)站的熱點(diǎn)URL，并將這些信息反饋給前端緩存服務(wù)器，以提高緩存命中率。

? 運(yùn)營商流量經(jīng)營分析：每天的流量數(shù)據(jù)在2TB~5TB左右，拷貝到HDFS上，通過交互式分析引擎框架，能運(yùn)行幾百個復(fù)雜的數(shù)據(jù)清洗和報表業(yè)務(wù)，總時間比類似硬件配置的小型機(jī)集群和DB2快2~3倍。

1.5 國內(nèi)HADOOP的就業(yè)情況分析

可以聯(lián)網(wǎng)查智聯(lián)

大數(shù)據(jù)方面的就業(yè)主要有三大方向：

? 數(shù)據(jù)分析類大數(shù)據(jù)人才對應(yīng)崗位大數(shù)據(jù)系統(tǒng)研發(fā)工程師

? 系統(tǒng)研發(fā)類大數(shù)據(jù)人才對應(yīng)崗位大數(shù)據(jù)應(yīng)用開發(fā)工程師

? 應(yīng)用開發(fā)類大數(shù)據(jù)人才對應(yīng)崗位大數(shù)據(jù)分析師

大數(shù)據(jù)技術(shù)生態(tài)體系

上圖中涉及到的技術(shù)名詞解釋如下：

1）Sqoop:sqoop 是一款開源的工具，主要用于在 Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql)間進(jìn) 行數(shù)據(jù)的傳遞，可以將一個關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle 等)中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop 的 HDFS 中，也可以將 HDFS 的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。

2)Flume:Flume 是 Cloudera 提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)，F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù);同時，F(xiàn)lume 提供對數(shù)據(jù)進(jìn)行簡單處理，并寫到各種數(shù)據(jù)接受方(可定制)的能力。

3)Kafka:Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，有如下特性:

(1)通過 O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化，這種結(jié)構(gòu)對于即使數(shù)以 TB 的消息存儲也能夠保持長時間的穩(wěn)定性能。 (2)高吞吐量:即使是非常普通的硬件 Kafka 也可以支持每秒數(shù)百萬的消息 (3)支持通過 Kafka 服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息。

(4)支持 Hadoop 并行數(shù)據(jù)加載。

4)Storm:Storm 為分布式實(shí)時計(jì)算提供了一組通用原語，可被用于“流處理”之中，實(shí)時

處理消息并更新數(shù)據(jù)庫。這是管理隊(duì)列及工作者集群的另一種方式。 Storm 也可被用于“連

續(xù)計(jì)算”(continuous computation)，對數(shù)據(jù)流做連續(xù)查詢，在計(jì)算時就將結(jié)果以流的形式

輸出給用戶。

5)Spark:Spark 是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架?？梢曰?Hadoop 上存儲的大數(shù)據(jù)進(jìn)行計(jì)算。

6)Oozie:Oozie 是一個管理 Hdoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。Oozie 協(xié)調(diào)作業(yè) 就是通過時間(頻率)和有效數(shù)據(jù)觸發(fā)當(dāng)前的 Oozie 工作流程。

7)Hbase:HBase 是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase 不同于一般的關(guān)系數(shù)據(jù)庫，它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。

8)Hive:hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的 sql 查詢功能，可以將 sql 語句轉(zhuǎn)換為 MapReduce 任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低，可以通過類 SQL 語句快速實(shí)現(xiàn)簡單的 MapReduce 統(tǒng)計(jì)，不必開發(fā)專門的 MapReduce 應(yīng)用，十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。

9)Mahout:

Apache Mahout是個可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫，當(dāng)前Mahout支持主要的4個用例: 推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。聚集:收集文件并進(jìn)行相關(guān)文件分組。分類:從現(xiàn)有的分類文檔中學(xué)習(xí)，尋找文檔中的相似特征，并為無標(biāo)簽的文檔進(jìn)行正確的歸類。

頻繁項(xiàng)集挖掘:將一組項(xiàng)分組，并識別哪些個別項(xiàng)會經(jīng)常一起出現(xiàn)。

10)ZooKeeper:Zookeeper 是 Google 的 Chubby 一個開源的實(shí)現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)，提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。 ZooKeeper 的目標(biāo)就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù)，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。

到此，相信大家對“HADOOP概念是什么”有了更深的了解，不妨來實(shí)際操作一番吧！這里是億速云網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么進(jìn)行ModelSim獨(dú)立仿真ISE的仿真工程
下一篇新聞：
mysql中出現(xiàn)1053錯誤怎么辦

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<tt id="wibjs"></tt>