<dl id="govmq"></dl>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

讓我們一起走進(jìn)大數(shù)據(jù)開(kāi)源項(xiàng)目--第1節(jié)

發(fā)布時(shí)間：2020-06-03 17:07:21 來(lái)源：網(wǎng)絡(luò) 閱讀：443 作者：哈斗篷欄目：大數(shù)據(jù)

最近大數(shù)據(jù)領(lǐng)域最火的消息莫過(guò)于Pivotal兌現(xiàn)了其年初對(duì)于開(kāi)源其大數(shù)據(jù)核心產(chǎn)品GemFire，HAWQ，Greemplum DB的承諾。這個(gè)消息也讓Pivotal在國(guó)內(nèi)技術(shù)社區(qū)風(fēng)風(fēng)光光的火了一把，程序猿們可以看到真正的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是如何設(shè)計(jì)和實(shí)現(xiàn)的。

與此同時(shí)，開(kāi)源社區(qū)中也存在很多類(lèi)似的優(yōu)秀大數(shù)據(jù)相關(guān)項(xiàng)目，涵蓋了分布式數(shù)據(jù)存儲(chǔ)與計(jì)算，數(shù)據(jù)處理，數(shù)據(jù)倉(cāng)庫(kù)，機(jī)器學(xué)習(xí)等與數(shù)據(jù)有關(guān)的方方面面，下面就讓我們看看開(kāi)源社區(qū)中的這些大數(shù)據(jù)項(xiàng)目典型代表。

首先，說(shuō)起大數(shù)據(jù)開(kāi)源項(xiàng)目，第一個(gè)必須要提的當(dāng)然就是Apache Hadoop下的三個(gè)子項(xiàng)目Apache HDFS，Apache MapReduce，Apache YARN，這基本上可以認(rèn)為是大數(shù)據(jù)處理的國(guó)際標(biāo)準(zhǔn)，是整個(gè)大數(shù)據(jù)生態(tài)系統(tǒng)的基石。

分布式存儲(chǔ)

在分布式存儲(chǔ)領(lǐng)域，可以按存儲(chǔ)模型分為文件系統(tǒng)，KV存儲(chǔ)，Columnar存儲(chǔ)，Document存儲(chǔ)，Graph存儲(chǔ)。

分布式文件系統(tǒng)是整個(gè)分布式存儲(chǔ)的最底層，鼻祖正是Google大名鼎鼎的GFS。Apache HDFS是GFS的開(kāi)源版本，應(yīng)該不用再介紹了。RedHat GlusterFS作為L(zhǎng)inux社區(qū)老大的產(chǎn)品，也是值得一看的。

KV存儲(chǔ)是最簡(jiǎn)單的存儲(chǔ)模型，比較典型的系統(tǒng)包括Amazon DynamoDB, Memcached，Redis,BerkeleyDB, Google LevelDB

Columnar存儲(chǔ)是KV存儲(chǔ)的直接擴(kuò)展，Value對(duì)應(yīng)Column family或是Column Map。這類(lèi)系統(tǒng)最基本的是Apache HBase，Google早期三架馬車(chē)之一BigTable開(kāi)源版本，類(lèi)似的還有ApacheCassandra，Hypertable, Facebook HydraBase。

Document存儲(chǔ)主要有MongoDB, Facebook Apollo等。Graph存儲(chǔ)系統(tǒng)大部分基于Google的Pregel，主要開(kāi)源實(shí)現(xiàn)有：Apache Giraph，Apache Spark Bagel，Phoebus。另外Google也開(kāi)源了自家的Graph數(shù)據(jù)庫(kù)Cayley。

分布式計(jì)算

分布式計(jì)算方面，主要體現(xiàn)在各種計(jì)算框架，數(shù)據(jù)處理模型，典型代表有Apache MapReduce，最經(jīng)典的大數(shù)據(jù)處理引擎。Apache Spark，目前最火的大數(shù)據(jù)處理引擎，速度相比MapReduce有數(shù)量級(jí)的提升，基于Spark也構(gòu)建了一整套生態(tài)系統(tǒng)，SQL，Streaming，Machine Learning，Graph。其他的項(xiàng)目包括Apache Storm，Apache Pig，Apache Tez，Apache S4, OpenMPI等。

分布式任務(wù)調(diào)度

分布式任務(wù)調(diào)度與集群管理，這類(lèi)系統(tǒng)主要實(shí)現(xiàn)分布式任務(wù)管理，資源調(diào)度，集群管理等基礎(chǔ)任務(wù)，包括Apache YARN,Apache Aurora,Apache Falcon,Apache Oozie,Linkedin Azkaban,Apache Ambari,Apache Bigtop, Apache Mesos等。

SQL與SQL-like處理，這類(lèi)系統(tǒng)正是Pivotal開(kāi)源的主要產(chǎn)品形態(tài)，基本上是在分布式系統(tǒng)上搭建SQL查詢引擎，有傳統(tǒng)的MPP SQL數(shù)據(jù)庫(kù)，SQL-on-Hadoop，也有SQL-like類(lèi)的大數(shù)據(jù)查詢系統(tǒng)。包括Greenplum DB，Apache Hive, Apache HAWQ，Cloudera Impala,SparkSQL，Apache Phoenix，Apache Drill， SharkSQL，F(xiàn)acebook PrestoDB，CockroachDB等。這類(lèi)系統(tǒng)現(xiàn)今也越來(lái)越多向云端發(fā)展，包括Amazon Redshift，Google BigQuery，Snowflake等，遺憾的是這類(lèi)云端產(chǎn)品由于安全性問(wèn)題大多沒(méi)有選擇開(kāi)源。

分布式服務(wù)及數(shù)據(jù)處理（包括各種日志處理）

分布式服務(wù)及數(shù)據(jù)處理領(lǐng)域，主要包括數(shù)據(jù)獲取，日志處理，消息服務(wù)等分布式編程必要的組件。主要有Apache Zookeeper, Apache Flume, Apache Kafka, Apache Sqoop, Cloudera Morphlines, Facebook Scribe, Logstash,Linkedin Gobblin等。

**分布式服務(wù)之上服務(wù)

在分布式存儲(chǔ)、計(jì)算、數(shù)據(jù)處理以及各類(lèi)基礎(chǔ)組件之上，各類(lèi)分布式應(yīng)用層出不窮，比如機(jī)器學(xué)習(xí)應(yīng)用相關(guān)**的Apache Mahout, Cloudera Oryx, Spark MLlib, MLbase，搜索應(yīng)用相關(guān)的Apache Solr，ElasticSearch，HBase Coprocessor, Facebook Unicorn，應(yīng)該說(shuō)有了這些分布式基礎(chǔ)組件的支持，構(gòu)建新的分布式應(yīng)用變得方便很多。
本節(jié)就到這里，有興趣的可以看我的下一篇文章。

很多人都知道我有大數(shù)據(jù)培訓(xùn)資料，都天真的以為我有全套的大數(shù)據(jù)開(kāi)發(fā)、hadoop、spark等視

頻學(xué)習(xí)資料。我想說(shuō)你們是對(duì)的，我的確有大數(shù)據(jù)開(kāi)發(fā)、hadoop、spark的全套視頻資料。
如果你對(duì)大數(shù)據(jù)開(kāi)發(fā)感興趣可以加口群領(lǐng)取免費(fèi)學(xué)習(xí)資料： 763835121

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Spring AOP的使用方法
下一篇新聞：
Cocos2d-x 架構(gòu)介紹

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<samp id="akb9r"></samp>

<strong id="akb9r"><strike id="akb9r"></strike></strong>

<option id="akb9r"><small id="akb9r"><table id="akb9r"></table></small></option>