溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

零基礎(chǔ)學(xué)習(xí)大數(shù)據(jù)Hadoop需要什么準(zhǔn)備?Hadoop如何發(fā)展起來(lái)的?

發(fā)布時(shí)間:2020-07-28 22:17:17 來(lái)源:網(wǎng)絡(luò) 閱讀:332 作者:a大數(shù)據(jù) 欄目:大數(shù)據(jù)

Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是用Java語(yǔ)言開(kāi)發(fā)的一個(gè)開(kāi)源分布式計(jì)算平臺(tái),適合大數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算平臺(tái)。今天加米谷大數(shù)據(jù)就來(lái)簡(jiǎn)單介紹一下Hadoop的簡(jiǎn)史,以及學(xué)習(xí)Hadoop前要做哪些準(zhǔn)備。
狹義上,Hadoop就是單獨(dú)指代Hadoop這個(gè)軟件;

廣義上,Hadoop指代大數(shù)據(jù)的一個(gè)生態(tài)圈,包括很多其他的軟件。
零基礎(chǔ)學(xué)習(xí)大數(shù)據(jù)Hadoop需要什么準(zhǔn)備?Hadoop如何發(fā)展起來(lái)的?

Hadoop的起源

1、2001年,Nutch問(wèn)世。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁(yè)抓取、索引、查詢(xún)等功能,但隨著抓取網(wǎng)頁(yè)數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問(wèn)題;

2、2003-2004年,Google發(fā)布論文:GFS、MapReduce,受此啟發(fā)的Doug Cutting等人實(shí)現(xiàn)了NDFS(HDFS的前身)和MapReduce機(jī)制,使Nutch性能飆升;

GFS:Google的分布式文件系統(tǒng)Google File System

MapReduce:Google的MapReduce開(kāi)源分布式并行計(jì)算框架

3、2005年,Hadoop作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì);

4、2006年,Hadoop(HDFS+MapReduce)從Nutch中剝離成為獨(dú)立項(xiàng)目。Doug Cutting加入Yahoo,領(lǐng)導(dǎo)Hadoop的開(kāi)發(fā)。

.在入門(mén)學(xué)習(xí)大數(shù)據(jù)的過(guò)程當(dāng)中有遇見(jiàn)學(xué)習(xí),行業(yè),缺乏系統(tǒng)學(xué)習(xí)路線(xiàn),系統(tǒng)學(xué)習(xí)規(guī)劃,歡迎你加入我的大數(shù)據(jù)學(xué)習(xí)交流裙:529867072 ,裙文件有我這幾年整理的大數(shù)據(jù)學(xué)習(xí)手冊(cè),開(kāi)發(fā)工具,PDF文檔書(shū)籍,你可以自行下載。

Hadoop的發(fā)展簡(jiǎn)史

5、2006年,Apache Hadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展;Yahoo建設(shè)了第一個(gè)Hadoop集群用于開(kāi)發(fā);4月,第一個(gè)Apache Hadoop發(fā)布;11月,Google發(fā)表了Bigtable論文,Hbase的創(chuàng)建的靈感來(lái)源;

BigTable:一個(gè)大型的分布式數(shù)據(jù)庫(kù)

演變關(guān)系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一個(gè)Hadoop用戶(hù)組會(huì)議召開(kāi),社區(qū)貢獻(xiàn)開(kāi)始急劇上升;同年,F(xiàn)acebook開(kāi)始使用Hadoop,百度開(kāi)始使用Hadoop做離線(xiàn)處理,中國(guó)移動(dòng)開(kāi)始研究使用Hadoop;

7、2008年,Hive、HBase問(wèn)世,Hadoop成為Apache頂級(jí)項(xiàng)目。8月,第一個(gè)Hadoop商業(yè)化公司Cloudera成立。同年,淘寶開(kāi)始使用Hadoop;

8、2009年-2012年,Hadoop不斷發(fā)展。

2009年Cloudera推出CDH平臺(tái)(首個(gè)Hadoop發(fā)行版),完全由開(kāi)放源碼軟件組成?!禜adoop權(quán)威指南》初版出版(被譽(yù)為Hadoop圣經(jīng));2010年,HBase、Hive( Facebook) 、Pig脫離Hadoop,均成為Apache頂級(jí)項(xiàng)目;Hadoop社區(qū)建立大量新組件(Crunch,Sqoop,F(xiàn)lume,Oozie等)來(lái)擴(kuò)展Hadoop的使用場(chǎng)景和可用性;2011年,ZooKeeper 脫離Hadoop,成為Apache頂級(jí)項(xiàng)目;加米谷大數(shù)據(jù)培訓(xùn)機(jī)構(gòu),6月大數(shù)據(jù)開(kāi)發(fā)0基礎(chǔ)班、提高班,即將開(kāi)課,預(yù)報(bào)名中... 2012年,Yarn成為Hadoop子項(xiàng)目;

9、2014年,Spark逐漸代替MapReduce成為Hadoop的缺省執(zhí)行引擎,并成為Apache基金會(huì)頂級(jí)項(xiàng)目。

Hadoop能干什么?

大數(shù)據(jù)存儲(chǔ):分布式存儲(chǔ)

日志處理:擅長(zhǎng)日志分析

ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫(kù)

機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目

搜索引擎:Hadoop + lucene實(shí)現(xiàn)

數(shù)據(jù)挖掘:目前比較流行的廣告推薦,個(gè)性化廣告推薦

Hadoop是專(zhuān)為離線(xiàn)和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的,并不適合那種對(duì)幾個(gè)記錄隨機(jī)讀寫(xiě)的在線(xiàn)事務(wù)處理模式。

學(xué)習(xí)Hadoop前的準(zhǔn)備:

準(zhǔn)備電腦(用于學(xué)習(xí)):內(nèi)存最少8G、CPU起碼四核(cpu i5 系列)

支持平臺(tái):Linux(CentOS)(產(chǎn)品開(kāi)發(fā)和運(yùn)行的平臺(tái))

所需軟件:以L(fǎng)inux為例

Java8.0,必須安裝,建議選擇Oracle公司發(fā)行的Java版本。
ssh 必須安裝并且保證 sshd一直運(yùn)行,以便用Hadoop 腳本管理遠(yuǎn)端Hadoop守護(hù)進(jìn)程。
安裝所需軟件:以L(fǎng)inux為例

$ sudo yum install ssh

$ sudo yum install rsync

下載Hadoop的發(fā)行版并解壓安裝

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI