溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

大數(shù)據(jù)開(kāi)發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

發(fā)布時(shí)間：2020-07-07 23:16:54 來(lái)源：網(wǎng)絡(luò) 閱讀：333 作者：Emmanuel趙欄目：大數(shù)據(jù)

大數(shù)據(jù)開(kāi)發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

Hadoop概述

Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序，充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（Hadoop Distributed File System），簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。
Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

分布式存儲(chǔ)

    在分布式存儲(chǔ)系統(tǒng)中，分散在不同節(jié)點(diǎn)中的數(shù)據(jù)可能屬于同一個(gè)文件，為了組織眾多的文件，把文件可以放到不同的文件夾中，
文件夾可以一級(jí)一級(jí)的包含。我們把這種組織形式稱為命名空間（namespace）。命名空間管理著整個(gè)服務(wù)器集群中的所有文件。

分布式計(jì)算

    把一個(gè)需要非常巨大的計(jì)算能力才能解決的問(wèn)題分成許多小的部分，然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理，最后把這些計(jì)
算結(jié)果綜合起來(lái)得到最終的結(jié)果。

Hadoop關(guān)聯(lián)項(xiàng)目

大數(shù)據(jù)開(kāi)發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

AmbariTM：基于web能夠提供資源、監(jiān)控、管理Hadoop集群的操作工具。
AvroTM：數(shù)據(jù)序列化系統(tǒng)。
HBaseTM：能支持結(jié)構(gòu)化數(shù)據(jù)大表存儲(chǔ)的可擴(kuò)展的、分布式的數(shù)據(jù)庫(kù)。
HiveTM：能夠支持?jǐn)?shù)據(jù)的匯總和臨時(shí)查詢的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)框架。
MahoutTM：一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)。
PigTM：高級(jí)數(shù)據(jù)流語(yǔ)言和并行計(jì)算執(zhí)行框架
SparkTM：一個(gè)快速和通用的計(jì)算Hadoop數(shù)據(jù)引擎。
TezTM：一個(gè)通用的數(shù)據(jù)流編程框架。
ZooKeeperTM：一個(gè)分布式應(yīng)用的高性能協(xié)調(diào)的服務(wù)。

Hadoop版本

大數(shù)據(jù)開(kāi)發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

大數(shù)據(jù)開(kāi)發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

Hadoop的版本大致分為以下：
Apache
官方版本
Cloudera(CDH)
使用下載最多的版本，穩(wěn)定，有商業(yè)支持，在Apache的基礎(chǔ)上打上了一些補(bǔ)丁。推薦使用。
HortonWorks(HDP)
基于Apache的版本進(jìn)行了集成。
MapR

Hadoop模塊構(gòu)成

Hadoop2包括4個(gè)模塊

Hadoop Common
The common utilities that support the other Hadoop modules.
Hadoop Distributed File System(HDFSTM)
A distributed file system that provides high-throughput access to application data.
Hadoop Yarn
A framework for job scheduling and cluster resource management.
Hadoop MapReduce
A YARN-based system for parallel processing of large data sets.

Hadoop1和Hadoop2簡(jiǎn)介

Hadoop1
HDFS：Hadoop Distributed File System 分布式文件系統(tǒng)
MapReduce：分布式計(jì)算模型
Hadoop2
HDFS2: Hadoop Distributed File System 分布式文件系統(tǒng)
Yarn：資源管理平臺(tái)，在上面運(yùn)行分布式計(jì)算，典型的計(jì)算模型有
MapReduce、Storm、Spark等。

大數(shù)據(jù)開(kāi)發(fā)生態(tài)圈之Apache Hadoop簡(jiǎn)介

詳細(xì)可參考http://hadoop.apache.org

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Oracle 11g安裝過(guò)程中錯(cuò)誤解決
下一篇新聞：
[Linux文件屬性]使用umask函數(shù)指定新建文件權(quán)限

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<ul id="ses2g"><tbody id="ses2g"></tbody></ul>

<th id="ses2g"></th>