溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

流式計(jì)算的三種框架:Storm、Spark和Flink

發(fā)布時間:2020-07-24 13:37:39 來源:網(wǎng)絡(luò) 閱讀:840 作者:先薦 欄目:大數(shù)據(jù)

我們知道,大數(shù)據(jù)的計(jì)算模式主要分為批量計(jì)算(batch computing)、流式計(jì)算(stream computing)、交互計(jì)算(interactive computing)、圖計(jì)算(graph computing)等。其中,流式計(jì)算和批量計(jì)算是兩種主要的大數(shù)據(jù)計(jì)算模式,分別適用于不同的大數(shù)據(jù)應(yīng)用場景。

目前主流的流式計(jì)算框架有Storm、Spark Streaming、Flink三種,其基本原理如下:

Apache Storm

在Storm中,需要先設(shè)計(jì)一個實(shí)時計(jì)算結(jié)構(gòu),我們稱之為拓?fù)洌╰opology)。之后,這個拓?fù)浣Y(jié)構(gòu)會被提交給集群,其中主節(jié)點(diǎn)(master node)負(fù)責(zé)給工作節(jié)點(diǎn)(worker node)分配代碼,工作節(jié)點(diǎn)負(fù)責(zé)執(zhí)行代碼。在一個拓?fù)浣Y(jié)構(gòu)中,包含spout和bolt兩種角色。數(shù)據(jù)在spouts之間傳遞,這些spouts將數(shù)據(jù)流以tuple元組的形式發(fā)送;而bolt則負(fù)責(zé)轉(zhuǎn)換數(shù)據(jù)流。流式計(jì)算的三種框架:Storm、Spark和Flink

Apache Spark

Spark Streaming,即核心Spark API的擴(kuò)展,不像Storm那樣一次處理一個數(shù)據(jù)流。相反,它在處理數(shù)據(jù)流之前,會按照時間間隔對數(shù)據(jù)流進(jìn)行分段切分。Spark針對連續(xù)數(shù)據(jù)流的抽象,我們稱為DStream(Discretized Stream)。 DStream是小批處理的RDD(彈性分布式數(shù)據(jù)集), RDD則是分布式數(shù)據(jù)集,可以通過任意函數(shù)和滑動數(shù)據(jù)窗口(窗口計(jì)算)進(jìn)行轉(zhuǎn)換,實(shí)現(xiàn)并行操作。
流式計(jì)算的三種框架:Storm、Spark和Flink

Apache Flink

針對流數(shù)據(jù)+批數(shù)據(jù)的計(jì)算框架。把批數(shù)據(jù)看作流數(shù)據(jù)的一種特例,延遲性較低(毫秒級),且能夠保證消息傳輸不丟失不重復(fù)。
流式計(jì)算的三種框架:Storm、Spark和Flink
Flink創(chuàng)造性地統(tǒng)一了流處理和批處理,作為流處理看待時輸入數(shù)據(jù)流是**的,而批處理被作為一種特殊的流處理,只是它的輸入數(shù)據(jù)流被定義為有界的。Flink程序由Stream和Transformation這兩個基本構(gòu)建塊組成,其中Stream是一個中間結(jié)果數(shù)據(jù),而Transformation是一個操作,它對一個或多個輸入Stream進(jìn)行計(jì)算處理,輸出一個或多個結(jié)果Stream。

這三種計(jì)算框架的對比如下:

流式計(jì)算的三種框架:Storm、Spark和Flink
參考文章:

Streaming Big Data: Storm, Spark and Samza

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI