大數(shù)據(jù)hadoop入門(mén)之hadoop家族詳解

發(fā)布時(shí)間：2020-10-11 21:16:02 來(lái)源：網(wǎng)絡(luò) 閱讀：810 作者：首席數(shù)據(jù)師欄目：大數(shù)據(jù)

大數(shù)據(jù)這個(gè)詞也許幾年前你聽(tīng)著還會(huì)覺(jué)得陌生，但我相信你現(xiàn)在聽(tīng)到 hadoop 這個(gè)詞的時(shí)候你應(yīng)該都會(huì)覺(jué)得“熟悉”！越來(lái)越發(fā)現(xiàn)身邊從事 hadoop 開(kāi)發(fā)或者是正在學(xué)習(xí) hadoop 的人變多了。作為一個(gè) hadoop 入門(mén)級(jí)的新手，你會(huì)覺(jué)得哪些地方很難呢？運(yùn)行環(huán)境的搭建恐怕就已經(jīng)足夠讓新手頭疼。如果每一個(gè)發(fā)行版 hadoop 都可以做到像大快 DKHadoop 那樣把各種環(huán)境搭建集成到一起，一次安裝搞定所有，那對(duì)于新手來(lái)說(shuō)將是件多么美妙的事情！
閑話扯得稍微多了點(diǎn)，回歸整體。這篇準(zhǔn)備給大家 hadoop 新入門(mén)的朋友分享一些 hadoop 的基礎(chǔ)知識(shí)—— hadoop 家族產(chǎn)品。通過(guò)對(duì) hadoop 家族產(chǎn)品的認(rèn)識(shí)，進(jìn)一步幫助大家學(xué)習(xí)好 hadoop ！同時(shí)，也歡迎大家提出寶貴意見(jiàn)！
一、Hadoop定義
Hadoop 是一個(gè)大家族，是一個(gè)開(kāi)源的生態(tài)系統(tǒng)，是一個(gè)分布式運(yùn)行系統(tǒng)，是基于Java編程語(yǔ)言的架構(gòu)。不過(guò)它最高明的技術(shù)還是HDFS和MapReduce，使得它可以分布式處理海量數(shù)據(jù)。
二、Hadoop產(chǎn)品

大數(shù)據(jù)hadoop入門(mén)之hadoop家族詳解
HDFS （分布式文件系統(tǒng)）：
它與現(xiàn)存的文件系統(tǒng)不同的特性有很多，比如高度容錯(cuò)（即使中途出錯(cuò)，也能繼續(xù)運(yùn)行），支持多媒體數(shù)據(jù)和流媒體數(shù)據(jù)訪問(wèn)，高效率訪問(wèn)大型數(shù)據(jù)集合，數(shù)據(jù)保持嚴(yán)謹(jǐn)一致，部署成本降低，部署效率提高等，如圖是HDFS的基礎(chǔ)架構(gòu)。

大數(shù)據(jù)hadoop入門(mén)之hadoop家族詳解
MapReduce/Spark/Storm （并行計(jì)算架構(gòu)）：
1 、數(shù)據(jù)處理方式來(lái)說(shuō)分離線計(jì)算和在線計(jì)算：
角色
描述
MapReduce
MapReduce 常用于離線的復(fù)雜的大數(shù)據(jù)計(jì)算
Storm
Storm 用于在線的實(shí)時(shí)的大數(shù)據(jù)計(jì)算，Storm的實(shí)時(shí)主要是一條一條數(shù)據(jù)處理；
Spark
可以用于離線的也可用于在線的實(shí)時(shí)的大數(shù)據(jù)計(jì)算，Spark的實(shí)時(shí)主要是處理一個(gè)個(gè)時(shí)間區(qū)域的數(shù)據(jù)，所以說(shuō)Spark比較靈活。
2 、數(shù)據(jù)存儲(chǔ)位置來(lái)說(shuō)分磁盤(pán)計(jì)算和內(nèi)存計(jì)算：
角色
描述
MapReduce
數(shù)據(jù)存在磁盤(pán)中
Spark 和Strom
數(shù)據(jù)存在內(nèi)存中
Pig/Hive （Hadoop編程）：
角色
描述
Pig
是一種高級(jí)編程語(yǔ)言，在處理半結(jié)構(gòu)化數(shù)據(jù)上擁有非常高的性能，可以幫助我們縮短開(kāi)發(fā)周期。
Hive
是數(shù)據(jù)分析查詢(xún)工具，尤其在使用類(lèi)SQL查詢(xún)分析時(shí)顯示出極高的性能?？梢栽诜址昼娡瓿蒃TL要一晚上才能完成的事情，這就是優(yōu)勢(shì)，占了先機(jī)！
HBase/Sqoop/Flume （數(shù)據(jù)導(dǎo)入與導(dǎo)出）:
角色
描述
HBase
是運(yùn)行在HDFS架構(gòu)上的列存儲(chǔ)數(shù)據(jù)庫(kù)，并且已經(jīng)與Pig/Hive很好地集成。通過(guò)Java API可以近無(wú)縫地使用HBase。
Sqoop
設(shè)計(jì)的目的是方便從傳統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)到Hadoop數(shù)據(jù)集合(HDFS/Hive)。
Flume
設(shè)計(jì)的目的是便捷地從日志文件系統(tǒng)直接把數(shù)據(jù)導(dǎo)入到Hadoop數(shù)據(jù)集合(HDFS)中。
以上這些數(shù)據(jù)轉(zhuǎn)移工具都極大地方便了使用的人，提高了工作效率，把精力專(zhuān)注在業(yè)務(wù)分析上。
ZooKeeper/Oozie （系統(tǒng)管理架構(gòu)）：
角色
描述
ZooKeeper
是一個(gè)系統(tǒng)管理協(xié)調(diào)架構(gòu)，用于管理分布式架構(gòu)的基本配置。它提供了很多接口，使得配置管理任務(wù)簡(jiǎn)單化。
Oozie
Oozie 服務(wù)是用于管理工作流。用于調(diào)度不同工作流，使得每個(gè)工作都有始有終。這些架構(gòu)幫助我們輕量化地管理大數(shù)據(jù)分布式計(jì)算架構(gòu)。
Ambari/Whirr （系統(tǒng)部署管理）：
角色
描述
Ambari
幫助相關(guān)人員快捷地部署搭建整個(gè)大數(shù)據(jù)分析架構(gòu)，并且實(shí)時(shí)監(jiān)控系統(tǒng)的運(yùn)行狀況。
Whirr
Whirr 的主要作用是幫助快速地進(jìn)行云計(jì)算開(kāi)發(fā)。
Mahout （機(jī)器學(xué)習(xí)）：
Mahout 旨在幫助我們快速地完成高智商的系統(tǒng)。其中已經(jīng)實(shí)現(xiàn)了部分機(jī)器學(xué)習(xí)的邏輯。這個(gè)架構(gòu)可以讓我們快速地集成更多機(jī)器學(xué)習(xí)的智能。
大家喜歡多多關(guān)注，你的關(guān)注是我最大的動(dòng)力
需要大數(shù)據(jù)資料的可以私信我

向AI問(wèn)一下細(xì)節(jié)

大數(shù)據(jù)hadoop入門(mén)之hadoop家族詳解

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽