溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

讓我們一起走進(jìn)大數(shù)據(jù)開(kāi)源項(xiàng)目--第1節(jié)

發(fā)布時(shí)間:2020-06-03 17:07:21 來(lái)源:網(wǎng)絡(luò) 閱讀:443 作者:哈斗篷 欄目:大數(shù)據(jù)

最近大數(shù)據(jù)領(lǐng)域最火的消息莫過(guò)于Pivotal兌現(xiàn)了其年初對(duì)于開(kāi)源其大數(shù)據(jù)核心產(chǎn)品GemFire,HAWQ,Greemplum DB的承諾 。這個(gè)消息也讓Pivotal在國(guó)內(nèi)技術(shù)社區(qū)風(fēng)風(fēng)光光的火了一把,程序猿們可以看到真正的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是如何設(shè)計(jì)和實(shí)現(xiàn)的。

與此同時(shí),開(kāi)源社區(qū)中也存在很多類(lèi)似的優(yōu)秀大數(shù)據(jù)相關(guān)項(xiàng)目,涵蓋了分布式數(shù)據(jù)存儲(chǔ)與計(jì)算,數(shù)據(jù)處理,數(shù)據(jù)倉(cāng)庫(kù),機(jī)器學(xué)習(xí)等與數(shù)據(jù)有關(guān)的方方面面,下面就讓我們看看開(kāi)源社區(qū)中的這些大數(shù)據(jù)項(xiàng)目典型代表。

首先,說(shuō)起大數(shù)據(jù)開(kāi)源項(xiàng)目,第一個(gè)必須要提的當(dāng)然就是Apache Hadoop下的三個(gè)子項(xiàng)目Apache HDFS,Apache MapReduce,Apache YARN,這基本上可以認(rèn)為是大數(shù)據(jù)處理的國(guó)際標(biāo)準(zhǔn),是整個(gè)大數(shù)據(jù)生態(tài)系統(tǒng)的基石。

分布式存儲(chǔ)

在分布式存儲(chǔ)領(lǐng)域,可以按存儲(chǔ)模型分為文件系統(tǒng),KV存儲(chǔ),Columnar存儲(chǔ),Document存儲(chǔ),Graph存儲(chǔ)。

分布式文件系統(tǒng)是整個(gè)分布式存儲(chǔ)的最底層,鼻祖正是Google大名鼎鼎的GFS。Apache HDFS是GFS的開(kāi)源版本,應(yīng)該不用再介紹了。RedHat GlusterFS作為L(zhǎng)inux社區(qū)老大的產(chǎn)品,也是值得一看的。

KV存儲(chǔ)是最簡(jiǎn)單的存儲(chǔ)模型,比較典型的系統(tǒng)包括Amazon DynamoDB, Memcached,Redis,BerkeleyDB, Google LevelDB

Columnar存儲(chǔ)是KV存儲(chǔ)的直接擴(kuò)展,Value對(duì)應(yīng)Column family或是Column Map。這類(lèi)系統(tǒng)最基本的是Apache HBase,Google早期三架馬車(chē)之一BigTable開(kāi)源版本,類(lèi)似的還有ApacheCassandra,Hypertable, Facebook HydraBase。

Document存儲(chǔ)主要有MongoDB, Facebook Apollo等。Graph存儲(chǔ)系統(tǒng)大部分基于Google的Pregel,主要開(kāi)源實(shí)現(xiàn)有:Apache Giraph,Apache Spark Bagel,Phoebus。另外Google也開(kāi)源了自家的Graph數(shù)據(jù)庫(kù)Cayley。

分布式計(jì)算

分布式計(jì)算方面,主要體現(xiàn)在各種計(jì)算框架,數(shù)據(jù)處理模型,典型代表有Apache MapReduce,最經(jīng)典的大數(shù)據(jù)處理引擎。Apache Spark,目前最火的大數(shù)據(jù)處理引擎,速度相比MapReduce有數(shù)量級(jí)的提升,基于Spark也構(gòu)建了一整套生態(tài)系統(tǒng),SQL,Streaming,Machine Learning,Graph。其他的項(xiàng)目包括Apache Storm,Apache Pig,Apache Tez,Apache S4, OpenMPI等。

分布式任務(wù)調(diào)度

分布式任務(wù)調(diào)度與集群管理,這類(lèi)系統(tǒng)主要實(shí)現(xiàn)分布式任務(wù)管理,資源調(diào)度,集群管理等基礎(chǔ)任務(wù),包括Apache YARN,Apache Aurora,Apache Falcon,Apache Oozie,Linkedin Azkaban,Apache Ambari,Apache Bigtop, Apache Mesos等。

SQL與SQL-like處理,這類(lèi)系統(tǒng)正是Pivotal開(kāi)源的主要產(chǎn)品形態(tài),基本上是在分布式系統(tǒng)上搭建SQL查詢引擎,有傳統(tǒng)的MPP SQL數(shù)據(jù)庫(kù),SQL-on-Hadoop,也有SQL-like類(lèi)的大數(shù)據(jù)查詢系統(tǒng)。包括Greenplum DB,Apache Hive, Apache HAWQ,Cloudera Impala,SparkSQL,Apache Phoenix,Apache Drill, SharkSQL,F(xiàn)acebook PrestoDB,CockroachDB等。這類(lèi)系統(tǒng)現(xiàn)今也越來(lái)越多向云端發(fā)展,包括Amazon Redshift,Google BigQuery,Snowflake等,遺憾的是這類(lèi)云端產(chǎn)品由于安全性問(wèn)題大多沒(méi)有選擇開(kāi)源。

分布式服務(wù)及數(shù)據(jù)處理(包括各種日志處理)

分布式服務(wù)及數(shù)據(jù)處理領(lǐng)域,主要包括數(shù)據(jù)獲取,日志處理,消息服務(wù)等分布式編程必要的組件。主要有Apache Zookeeper, Apache Flume, Apache Kafka, Apache Sqoop, Cloudera Morphlines, Facebook Scribe, Logstash,Linkedin Gobblin等。

**分布式服務(wù)之上服務(wù)

在分布式存儲(chǔ)、計(jì)算、數(shù)據(jù)處理以及各類(lèi)基礎(chǔ)組件之上,各類(lèi)分布式應(yīng)用層出不窮,比如機(jī)器學(xué)習(xí)應(yīng)用相關(guān)**的Apache Mahout, Cloudera Oryx, Spark MLlib, MLbase,搜索應(yīng)用相關(guān)的Apache Solr,ElasticSearch,HBase Coprocessor, Facebook Unicorn,應(yīng)該說(shuō)有了這些分布式基礎(chǔ)組件的支持,構(gòu)建新的分布式應(yīng)用變得方便很多。
本節(jié)就到這里,有興趣的可以看我的下一篇文章。

很多人都知道我有大數(shù)據(jù)培訓(xùn)資料,都天真的以為我有全套的大數(shù)據(jù)開(kāi)發(fā)、hadoop、spark等視

頻學(xué)習(xí)資料。我想說(shuō)你們是對(duì)的,我的確有大數(shù)據(jù)開(kāi)發(fā)、hadoop、spark的全套視頻資料。
如果你對(duì)大數(shù)據(jù)開(kāi)發(fā)感興趣可以加口群領(lǐng)取免費(fèi)學(xué)習(xí)資料: 763835121

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI