溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Hadoop產(chǎn)品簡(jiǎn)介

發(fā)布時(shí)間：2020-07-15 03:34:25 來(lái)源：網(wǎng)絡(luò) 閱讀：687 作者：qhd2004 欄目：大數(shù)據(jù)

hadoop是一堆開源軟件的集合，下面把這些開源軟件做個(gè)簡(jiǎn)單介紹

Apache Hadoop: 是Apache開源組織的一個(gè)分布式計(jì)算開源框架，是提供了一個(gè)分布式文件系統(tǒng)(HDFS)和支持MapReduce分布式計(jì)算的軟件架構(gòu)。

Apache Hive: 是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，通過(guò)類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)，不必開發(fā)專門的MapReduce應(yīng)用，十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。熟悉sql的人員，可以快速上手。

Apache Pig: 是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析工具，它提供的SQL-LIKE語(yǔ)言叫Pig Latin，該語(yǔ)言的編譯器會(huì)把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算。

Apache HBase: 是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)，利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。

Apache Sqoop: 是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)（MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。

Apache Zookeeper: 是一個(gè)為分布式應(yīng)用所設(shè)計(jì)的分布的、開源的協(xié)調(diào)服務(wù)，它主要是用來(lái)解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題，簡(jiǎn)化分布式應(yīng)用協(xié)調(diào)及其管理的難度，提供高性能的分布式服務(wù)。

Apache Mahout: 是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法，解決了并行挖掘的問(wèn)題。

Apache Cassandra: 是一套開源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。它最初由Facebook開發(fā)，用于儲(chǔ)存簡(jiǎn)單格式數(shù)據(jù)，集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身

Apache Avro: 是一個(gè)數(shù)據(jù)序列化系統(tǒng)，設(shè)計(jì)用于支持?jǐn)?shù)據(jù)密集型，大批量數(shù)據(jù)交換的應(yīng)用。Avro是新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機(jī)制

Apache Ambari: 是一種基于Web的工具，支持Hadoop集群的供應(yīng)、管理和監(jiān)控。

Apache Chukwa: 是一個(gè)開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)，它可以將各種各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作。

Apache Hama: 是一個(gè)基于HDFS的BSP（Bulk Synchronous Parallel)并行計(jì)算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計(jì)算。

Apache Flume: 是一個(gè)分布的、可靠的、高可用的海量日志聚合的系統(tǒng)，可用于日志數(shù)據(jù)收集，日志數(shù)據(jù)處理，日志數(shù)據(jù)傳輸。

Apache Giraph: 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng)，基于Hadoop平臺(tái)，靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

Apache Oozie: 是一個(gè)工作流引擎服務(wù)器, 用于管理和協(xié)調(diào)運(yùn)行在Hadoop平臺(tái)上（HDFS、Pig和MapReduce）的任務(wù)。

Apache Crunch: 是基于Google的FlumeJava庫(kù)編寫的Java庫(kù)，用于創(chuàng)建MapReduce程序。與Hive，Pig類似，Crunch提供了用于實(shí)現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見任務(wù)的模式庫(kù)

Apache Whirr: 是一套運(yùn)行于云服務(wù)的類庫(kù)（包括Hadoop），可提供高度的互補(bǔ)性。Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。

Apache Bigtop: 是一個(gè)對(duì)Hadoop及其周邊生態(tài)進(jìn)行打包，分發(fā)和測(cè)試的工具。

Apache HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲(chǔ)管理，實(shí)現(xiàn)中央的元數(shù)據(jù)和模式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供關(guān)系視圖。

Cloudera Hue: 是一個(gè)基于WEB的監(jiān)控和管理系統(tǒng)，實(shí)現(xiàn)對(duì)HDFS，MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

Cloudera公司出品的CDH，包含Hadoop生態(tài)園的多種工具，是一個(gè)“打包發(fā)行版”；即Cloudera公司在原本的Hadoop等開源項(xiàng)目的基礎(chǔ)上，進(jìn)行二次開發(fā)，從而得到了CDH。

參考：Hadoop的學(xué)習(xí)路線圖

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
這樣講 SpringBoot 自動(dòng)配置原理，你應(yīng)該能明白了吧
下一篇新聞：
C++對(duì)C的加強(qiáng)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<input id="fdjiy"></input>

<ol id="fdjiy"></ol>

<font id="fdjiy"></font>