project-   ->hadoop打開  2.Hadoop是開源軟件,可靠的..."/>
溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

發(fā)布時間:2020-07-13 02:47:00 來源:網(wǎng)絡 閱讀:581 作者:大數(shù)據(jù)部落 欄目:大數(shù)據(jù)

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

  1.1.什么是hadoop

  1.hadoop是apache旗下的一套開源軟件平臺,可以通過http://apache.org/--->project-

   ->hadoop打開

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

  2.Hadoop是開源軟件,可靠的、分布式、可伸縮的。

  3.Hadoop提供的功能:利用服務器集群,根據(jù)用戶的自定義業(yè)務邏輯,對海量數(shù)據(jù)進行分布式處理

  4.廣義上來說,Hadoop通常是指一個更廣泛的概念----hadoop生態(tài)圈

  1.2數(shù)據(jù)分析故事

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

  1.3數(shù)據(jù)有多大呢

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

  數(shù)據(jù)量進制:

  1G =1024M

  1T = 1024G

  1P = 1024T

  1E = 1024P

  1Z = 1024E

  1Y = 1024Z

  1N = 1024Y

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

  Hadoop 廉價機器

  去IOE

   IBM//ibm小型機.

  Oracle//oracle數(shù)據(jù)庫服務器 RAC

  EMC//EMC共享存儲設備。

  1.4分布式

  由分布在不同主機上的進程協(xié)同在一起,才能構(gòu)成整個應用。

1.分布式軟件系統(tǒng)(Distributed Software Systems)

  2 該軟件系統(tǒng)會劃分成多個子系統(tǒng)或模塊,各自運行在不同的機器上,

  子系統(tǒng)或模塊之間通過網(wǎng)絡通信進行協(xié)作,實現(xiàn)最終的整體功能

2.分布式應用系統(tǒng)模擬開發(fā)

  需求:可以實現(xiàn)由主節(jié)點將運算任務發(fā)往從節(jié)點,并將各從節(jié)點上的任務啟動;

  程序清單:

  AppMaster

  AppSlave/APPSlaveThread

  Task

  程序運行邏輯流程:

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

1.5 HADOOP在大數(shù)據(jù)、云計算中的位置和關(guān)系

  1. 云計算是分布式計算、并行計算、網(wǎng)格計算、多核計算、網(wǎng)絡存儲、虛擬化、負載均衡等傳統(tǒng)計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)融合發(fā)展的產(chǎn)物。借助IaaS(基礎(chǔ)設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等業(yè)務模式,把強大的計算能力提供給終端用戶。

  2. 現(xiàn)階段,云計算的兩大底層支撐技術(shù)為“虛擬化”和“大數(shù)據(jù)技術(shù)

1.6 HADOOP產(chǎn)生背景

  1. HADOOP最早起源于Nutch。Nutch的設計目標是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴重的可擴展性問題——如何解決數(shù)十億網(wǎng)頁的存儲和索引問題。

  2. 2003年、2004年谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案。

  ——分布式文件系統(tǒng)(GFS),可用于處理海量網(wǎng)頁的存儲

  ——分布式計算框架MAPREDUCE,可用于處理海量網(wǎng)頁的索引計算問題。

  3. Nutch的開發(fā)人員完成了相應的開源實現(xiàn)HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發(fā)展期。

1.7 HADOOP現(xiàn)狀

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介

大數(shù)據(jù)入門基礎(chǔ):Hadoop簡介


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI