<code id="zrvbd"></code>

<var id="zrvbd"></var>

<u id="zrvbd"><thead id="zrvbd"></thead></u>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

張小龍談“大數(shù)據(jù)五種開源處理技術(shù)”

發(fā)布時(shí)間：2020-06-01 20:19:47 來源：網(wǎng)絡(luò) 閱讀：743 作者：kxd58 欄目：大數(shù)據(jù)

概述

現(xiàn)在市場(chǎng)上有超過25萬個(gè)開源技術(shù)出現(xiàn)了。如何選擇？讓我們一起看下5種激動(dòng)人心的大數(shù)據(jù)技術(shù)。

Storm 和Kafka是未來數(shù)據(jù)流處理的主要方式，它們已經(jīng)在一些大公司中使用了，包括 Groupon,阿里巴巴和The Weather Channel等。

Storm,誕生于Twitter,是一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng)。Storm 設(shè)計(jì)用于處理實(shí)時(shí)計(jì)算,Hadoop主要用于處理批處理運(yùn)算。

kafka是由LinkedIn研發(fā)的一款消息系統(tǒng)，作為一個(gè)數(shù)據(jù)處理的管道基礎(chǔ)部分存在于系統(tǒng)中。當(dāng)你一起使用它們，你就能實(shí)時(shí)地和線性遞增的獲取數(shù)據(jù)。

1、Storm\Kafka

使用Storm和Kafka,使得數(shù)據(jù)流處理線性的，確保每條消息獲取都是實(shí)時(shí)的，可靠的。前后布置的Storm和Kafka能每秒流暢的處理10000條數(shù)據(jù)。像Storm和Kafka這樣的數(shù)據(jù)流處理方案使得很多企業(yè)引起關(guān)注并想達(dá)到優(yōu)秀的ETL(抽取轉(zhuǎn)換裝載)的數(shù)據(jù)集成方案。Storm 和 Kafka 也很擅長內(nèi)存分析和實(shí)時(shí)計(jì)算支持。企業(yè)使用批量處理的Hadoop方案無法也難對(duì)實(shí)現(xiàn)實(shí)時(shí)的業(yè)務(wù)需求。

在企業(yè)的大數(shù)據(jù)解決方案中實(shí)時(shí)數(shù)據(jù)流處理是必須的，因?yàn)樗軆?yōu)美的處理了“3v”–volume,velocity 和 variety (容量，速率和多樣性)。

Drill和Dremel 實(shí)現(xiàn)了快速低負(fù)載的大規(guī)模，即時(shí)查詢數(shù)據(jù)搜索。它們提供了秒級(jí)搜索P級(jí)別數(shù)據(jù)的可能，來應(yīng)對(duì)即席查詢和預(yù)測(cè)，及提供強(qiáng)大的虛擬化支持。

Drill和Dremel提供強(qiáng)大的業(yè)務(wù)處理能力，不僅僅只是為數(shù)據(jù)工程師提供。業(yè)務(wù)端的大家都將喜歡Drill和Dremel。Drill 是Google的Dremel的開源版本。Dremel是Google提供的支持大數(shù)據(jù)查詢的技術(shù)。

Hadoop生態(tài)圈使得MapReduce作為一個(gè)很親切有利的工具應(yīng)用于廣告分析。從Sawzall到Pig到Hive,很多接口層應(yīng)用的建立使得Hadoop更為友好，更接近業(yè)務(wù)，但是，像SQL體系，這些抽象層忽略一個(gè)重要的事實(shí)–MapReduce(或Hadoop)是為了系統(tǒng)化數(shù)據(jù)處理流程而存在的。

在堆對(duì)比的工作流基礎(chǔ)的方法論中，很多業(yè)務(wù)驅(qū)動(dòng)的BI和分析查詢都是很基本的和臨時(shí)交互的，低延時(shí)分析。一些數(shù)據(jù)科學(xué)家早已經(jīng)推測(cè)Drill和Dremel將優(yōu)于Hadoop。在Infochimps我們喜歡使用Elasticsearch全文索引引擎來實(shí)現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)搜索，但是真的在大數(shù)據(jù)處理中我們認(rèn)為Drill將成為主流。

2、R

R是開源的強(qiáng)大的統(tǒng)計(jì)編程語言。自1997年以來，超過200萬的統(tǒng)計(jì)分析師使用R。這是一門誕生自貝爾實(shí)驗(yàn)室的在統(tǒng)計(jì)計(jì)算領(lǐng)域的現(xiàn)代版的S語言并迅速地成為了新的標(biāo)準(zhǔn)的統(tǒng)計(jì)語言。R使得復(fù)雜的數(shù)據(jù)科學(xué)變得更廉價(jià)。R是SAS和SPASS的重要的領(lǐng)頭者，并作為最優(yōu)秀的統(tǒng)計(jì)師的重要工具。

因?yàn)樗幸粋€(gè)非凡強(qiáng)大的社區(qū)在支持著，你可以找到所有的R的類庫，創(chuàng)建虛擬的各類型的科學(xué)數(shù)據(jù)而不用新寫代碼。R之所以令人興奮是因?yàn)榫S護(hù)他的人和新的每天的創(chuàng)造。R社區(qū)是大數(shù)據(jù)領(lǐng)域令人興奮的地方之一。R在大數(shù)據(jù)領(lǐng)域是一個(gè)超棒的不會(huì)過時(shí)的技術(shù)。

在最近的幾個(gè)月里，幾千個(gè)新特性被日益公開的知識(shí)基礎(chǔ)為主的分析類型的分析師們介紹.而且，R和Hadoop協(xié)同的很好，作為一個(gè)大數(shù)據(jù)的處理的部分已經(jīng)被證明了。

3、Jualia

Julia ，是一個(gè)有趣的R的替代者，因?yàn)樗幌矚gR的死慢死慢的解釋器。Julia的社區(qū)雖然不怎么強(qiáng)大現(xiàn)在，但是如果你不是立即使用它的話，還是可以等等的。Gremlin 和 Giraph 幫助增強(qiáng)圖形分析，并在圖數(shù)據(jù)庫像Neo4j和InfiniteGraph中被使用，和與Hadoop協(xié)同工作的Giraph中被使用。

Golden Orb是另一個(gè)高層面的流處理的圖基礎(chǔ)的項(xiàng)目的例子。可以看看。圖數(shù)據(jù)庫是富有魅力的邊緣化的數(shù)據(jù)庫。它們和關(guān)系型數(shù)據(jù)庫相比，有著很多有趣的不同點(diǎn)，這個(gè)是當(dāng)你在開始的時(shí)候總是想用圖理論而不是關(guān)系型理論。

另一個(gè)類似的圖基礎(chǔ)的理論是Google的Pregel,相比來說Gremlin和Giraph是其的開源替代。實(shí)際上，這些都是Google技術(shù)的山寨實(shí)現(xiàn)的例子。圖在計(jì)算網(wǎng)絡(luò)建模和社會(huì)化網(wǎng)絡(luò)方面發(fā)揮著重要作用，能夠連接任意的數(shù)據(jù)。另外一個(gè)經(jīng)常的應(yīng)用是映射和地理信息計(jì)算。從A到B的地點(diǎn)，計(jì)算最短的距離。

圖在生物計(jì)算和物理計(jì)算領(lǐng)域也有廣泛的應(yīng)用，例如，他們能繪制不尋常的分子結(jié)構(gòu)。海量的圖，圖數(shù)據(jù)庫和分析語言和框架都是一種現(xiàn)實(shí)世界上實(shí)現(xiàn)大數(shù)據(jù)中的一部分。圖基礎(chǔ)的理論是一個(gè)殺手級(jí)的應(yīng)用，為什么這么說?任何一個(gè)解決大型網(wǎng)絡(luò)節(jié)點(diǎn)問題，都是通過節(jié)點(diǎn)和節(jié)點(diǎn)之間的路徑來處理的。很多富有創(chuàng)造力的科學(xué)家和工程師們，都很明白的用正確的工具來解決對(duì)應(yīng)的問題。

4、SAP hANA

SAP Hana 是一個(gè)全內(nèi)存的分析平臺(tái)，它包含了一個(gè)內(nèi)存數(shù)據(jù)庫和一些相關(guān)的工具軟件用來創(chuàng)建分析流程和規(guī)范正確的格式來進(jìn)行數(shù)據(jù)的輸入輸出。

Hana 假設(shè)其他的程序處理時(shí)候還不夠快的解決遇到的問題，例如，金融建模和決策支持，網(wǎng)站個(gè)性化和欺騙檢測(cè)等等。Hana最大的缺點(diǎn)是”全內(nèi)存“這意味著訪問軟狀態(tài)的內(nèi)存，這個(gè)是很明確的有點(diǎn)，但是這個(gè)也是相比磁盤存儲(chǔ)來說很昂貴的部分。據(jù)組織者說，不用擔(dān)心操作成本，Hana是快速的低延遲的大數(shù)據(jù)處理工具。

5、D3

D3是一個(gè)javascript面向文檔的可視化的類庫。它強(qiáng)大的創(chuàng)新性的讓我們能直接看到信息和讓我們進(jìn)行正常的交互。它的作者是Michael Bostock一個(gè)紐約時(shí)報(bào)的圖形界面設(shè)計(jì)師。例如，你可以使用D3來從任意數(shù)量的數(shù)組中創(chuàng)建HTMl表格。你能使用任意的數(shù)據(jù)來創(chuàng)建交互進(jìn)度條等。使用D3，程序員能之間創(chuàng)建界面，組織所有的各種類型的數(shù)據(jù)。

開始正式的使用Hadoop已經(jīng)有近一年的時(shí)間的了，這期間從百度出來，到初見在到現(xiàn)在的BitWare，在不同的公司，用不同的技術(shù)解決問題。但是本質(zhì)上遇到的問題總是那么幾個(gè)，當(dāng)然現(xiàn)在很多公司也開始嘗鮮的使用Hadoop的了。這個(gè)是大環(huán)境是如此，可以理解。

Storm和Kafka 從11年起，就開始關(guān)注了，Storm在阿里也有部分二線應(yīng)用，但是整體而言，剛剛滿一歲的Storm在nathanmarz大俠的打磨下越來越穩(wěn)定了，并有部分線上的應(yīng)用了。所以對(duì)這個(gè)技術(shù)，總體而言，我個(gè)人還是很看好的，因?yàn)楝F(xiàn)在使用hadoop無法實(shí)現(xiàn)實(shí)時(shí)的處理，使用HBase來為主要的數(shù)據(jù)庫來使用了，暫時(shí)還是能解決.

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
curl 請(qǐng)求返回 301 Moved Permanent
下一篇新聞：
【比原鏈】比原是如何把請(qǐng)求區(qū)塊數(shù)據(jù)的信息發(fā)出去的

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<pre id="xfzzb"></pre>

<big id="xfzzb"></big>