溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

張小龍談“大數(shù)據(jù)五種開源處理技術(shù)”

發(fā)布時(shí)間:2020-06-01 20:19:47 來源:網(wǎng)絡(luò) 閱讀:743 作者:kxd58 欄目:大數(shù)據(jù)


概述


現(xiàn)在市場(chǎng)上有超過25萬個(gè)開源技術(shù)出現(xiàn)了。如何選擇?讓我們一起看下5種激動(dòng)人心的大數(shù)據(jù)技術(shù)。


Storm Kafka是未來數(shù)據(jù)流處理的主要方式,它們已經(jīng)在一些大公司中使用了,包括 Groupon,阿里巴巴和The Weather Channel等。


Storm,誕生于Twitter,是一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng)。Storm 設(shè)計(jì)用于處理實(shí)時(shí)計(jì)算,Hadoop主要用于處理批處理運(yùn)算。


kafka是由LinkedIn研發(fā)的一款消息系統(tǒng),作為一個(gè)數(shù)據(jù)處理的管道基礎(chǔ)部分存在于系統(tǒng)中。當(dāng)你一起使用它們,你就能實(shí)時(shí)地和線性遞增的獲取數(shù)據(jù)。


1、Storm\Kafka


使用Storm和Kafka,使得數(shù)據(jù)流處理線性的,確保每條消息獲取都是實(shí)時(shí)的,可靠的。前后布置的Storm和Kafka能每秒流暢的處理10000條數(shù)據(jù)。像Storm和Kafka這樣的數(shù)據(jù)流處理方案使得很多企業(yè)引起關(guān)注并想達(dá)到優(yōu)秀的ETL(抽取轉(zhuǎn)換裝載)的數(shù)據(jù)集成方案。Storm 和 Kafka 也很擅長內(nèi)存分析實(shí)時(shí)計(jì)算支持。企業(yè)使用批量處理的Hadoop方案無法也難對(duì)實(shí)現(xiàn)實(shí)時(shí)的業(yè)務(wù)需求。


在企業(yè)的大數(shù)據(jù)解決方案中實(shí)時(shí)數(shù)據(jù)流處理是必須的,因?yàn)樗軆?yōu)美的處理了“3v”–volume,velocity 和 variety (容量,速率和多樣性)。


Drill和Dremel 實(shí)現(xiàn)了快速低負(fù)載的大規(guī)模,即時(shí)查詢數(shù)據(jù)搜索。它們提供了秒級(jí)搜索P級(jí)別數(shù)據(jù)的可能,來應(yīng)對(duì)即席查詢和預(yù)測(cè),及提供強(qiáng)大的虛擬化支持。


Drill和Dremel提供強(qiáng)大的業(yè)務(wù)處理能力,不僅僅只是為數(shù)據(jù)工程師提供。業(yè)務(wù)端的大家都將喜歡DrillDremel。Drill 是Google的Dremel的開源版本。Dremel是Google提供的支持大數(shù)據(jù)查詢的技術(shù)。



Hadoop生態(tài)圈使得MapReduce作為一個(gè)很親切有利的工具應(yīng)用于廣告分析。從SawzallPigHive,很多接口層應(yīng)用的建立使得Hadoop更為友好,更接近業(yè)務(wù),但是,像SQL體系,這些抽象層忽略一個(gè)重要的事實(shí)–MapReduce(或Hadoop)是為了系統(tǒng)化數(shù)據(jù)處理流程而存在的。


在堆對(duì)比的工作流基礎(chǔ)的方法論中,很多業(yè)務(wù)驅(qū)動(dòng)的BI和分析查詢都是很基本的和臨時(shí)交互的,低延時(shí)分析。一些數(shù)據(jù)科學(xué)家早已經(jīng)推測(cè)Drill和Dremel將優(yōu)于Hadoop。在Infochimps我們喜歡使用Elasticsearch全文索引引擎來實(shí)現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)搜索,但是真的在大數(shù)據(jù)處理中我們認(rèn)為Drill將成為主流。


2、R


R是開源的強(qiáng)大的統(tǒng)計(jì)編程語言。自1997年以來,超過200萬的統(tǒng)計(jì)分析師使用R。這是一門誕生自貝爾實(shí)驗(yàn)室的在統(tǒng)計(jì)計(jì)算領(lǐng)域的現(xiàn)代版的S語言并迅速地成為了新的標(biāo)準(zhǔn)的統(tǒng)計(jì)語言。R使得復(fù)雜的數(shù)據(jù)科學(xué)變得更廉價(jià)。R是SASSPASS的重要的領(lǐng)頭者,并作為最優(yōu)秀的統(tǒng)計(jì)師的重要工具。


因?yàn)樗幸粋€(gè)非凡強(qiáng)大的社區(qū)在支持著,你可以找到所有的R的類庫,創(chuàng)建虛擬的各類型的科學(xué)數(shù)據(jù)而不用新寫代碼。R之所以令人興奮是因?yàn)榫S護(hù)他的人和新的每天的創(chuàng)造。R社區(qū)是大數(shù)據(jù)領(lǐng)域令人興奮的地方之一。R在大數(shù)據(jù)領(lǐng)域是一個(gè)超棒的不會(huì)過時(shí)的技術(shù)。


在最近的幾個(gè)月里,幾千個(gè)新特性被日益公開的知識(shí)基礎(chǔ)為主的分析類型的分析師們介紹.而且,R和Hadoop協(xié)同的很好,作為一個(gè)大數(shù)據(jù)的處理的部分已經(jīng)被證明了。


3、Jualia


Julia ,是一個(gè)有趣的R的替代者,因?yàn)樗幌矚gR的死慢死慢的解釋器。Julia的社區(qū)雖然不怎么強(qiáng)大現(xiàn)在,但是如果你不是立即使用它的話,還是可以等等的。GremlinGiraph 幫助增強(qiáng)圖形分析,并在圖數(shù)據(jù)庫像Neo4jInfiniteGraph中被使用,和與Hadoop協(xié)同工作的Giraph中被使用。


Golden Orb是另一個(gè)高層面的流處理的圖基礎(chǔ)的項(xiàng)目的例子。可以看看。圖數(shù)據(jù)庫是富有魅力的邊緣化的數(shù)據(jù)庫。它們和關(guān)系型數(shù)據(jù)庫相比,有著很多有趣的不同點(diǎn),這個(gè)是當(dāng)你在開始的時(shí)候總是想用圖理論而不是關(guān)系型理論。


另一個(gè)類似的圖基礎(chǔ)的理論是Google的Pregel,相比來說Gremlin和Giraph是其的開源替代。實(shí)際上,這些都是Google技術(shù)的山寨實(shí)現(xiàn)的例子。圖在計(jì)算網(wǎng)絡(luò)建模社會(huì)化網(wǎng)絡(luò)方面發(fā)揮著重要作用,能夠連接任意的數(shù)據(jù)。另外一個(gè)經(jīng)常的應(yīng)用是映射地理信息計(jì)算。從A到B的地點(diǎn),計(jì)算最短的距離。


圖在生物計(jì)算物理計(jì)算領(lǐng)域也有廣泛的應(yīng)用,例如,他們能繪制不尋常的分子結(jié)構(gòu)。海量的圖,圖數(shù)據(jù)庫和分析語言框架都是一種現(xiàn)實(shí)世界上實(shí)現(xiàn)大數(shù)據(jù)中的一部分。圖基礎(chǔ)的理論是一個(gè)殺手級(jí)的應(yīng)用,為什么這么說?任何一個(gè)解決大型網(wǎng)絡(luò)節(jié)點(diǎn)問題,都是通過節(jié)點(diǎn)和節(jié)點(diǎn)之間的路徑來處理的。很多富有創(chuàng)造力的科學(xué)家和工程師們,都很明白的用正確的工具來解決對(duì)應(yīng)的問題。


4、SAP hANA


SAP Hana 是一個(gè)全內(nèi)存的分析平臺(tái),它包含了一個(gè)內(nèi)存數(shù)據(jù)庫和一些相關(guān)的工具軟件用來創(chuàng)建分析流程和規(guī)范正確的格式來進(jìn)行數(shù)據(jù)的輸入輸出。


Hana 假設(shè)其他的程序處理時(shí)候還不夠快的解決遇到的問題,例如,金融建模決策支持,網(wǎng)站個(gè)性化欺騙檢測(cè)等等。Hana最大的缺點(diǎn)是”全內(nèi)存“這意味著訪問軟狀態(tài)的內(nèi)存,這個(gè)是很明確的有點(diǎn),但是這個(gè)也是相比磁盤存儲(chǔ)來說很昂貴的部分。據(jù)組織者說,不用擔(dān)心操作成本,Hana是快速的低延遲的大數(shù)據(jù)處理工具。


5、D3

D3是一個(gè)javascript面向文檔的可視化的類庫。它強(qiáng)大的創(chuàng)新性的讓我們能直接看到信息和讓我們進(jìn)行正常的交互。它的作者是Michael Bostock一個(gè)紐約時(shí)報(bào)的圖形界面設(shè)計(jì)師。例如,你可以使用D3來從任意數(shù)量的數(shù)組中創(chuàng)建HTMl表格。你能使用任意的數(shù)據(jù)來創(chuàng)建交互進(jìn)度條等。使用D3,程序員能之間創(chuàng)建界面,組織所有的各種類型的數(shù)據(jù)。



開始正式的使用Hadoop已經(jīng)有近一年的時(shí)間的了,這期間從百度出來,到初見在到現(xiàn)在的BitWare,在不同的公司,用不同的技術(shù)解決問題。但是本質(zhì)上遇到的問題總是那么幾個(gè),當(dāng)然現(xiàn)在很多公司也開始嘗鮮的使用Hadoop的了。這個(gè)是大環(huán)境是如此,可以理解。



Storm和Kafka 從11年起,就開始關(guān)注了,Storm在阿里也有部分二線應(yīng)用,但是整體而言,剛剛滿一歲的Storm在nathanmarz大俠的打磨下越來越穩(wěn)定了,并有部分線上的應(yīng)用了。所以對(duì)這個(gè)技術(shù),總體而言,我個(gè)人還是很看好的,因?yàn)楝F(xiàn)在使用hadoop無法實(shí)現(xiàn)實(shí)時(shí)的處理,使用HBase來為主要的數(shù)據(jù)庫來使用了,暫時(shí)還是能解決.


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI