Spark Streaming與Kafka Stream的原理是什么

發(fā)布時間：2021-12-15 11:53:26 來源：億速云閱讀：224 作者：柒染欄目：大數(shù)據(jù)

這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)Spark Streaming與Kafka Stream的原理是什么，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

下面介紹了兩大常用的流式處理框架，Spark Streaming和Kafka Stream，并對他們各自的特點(diǎn)做了詳細(xì)說明，以幫助讀者在不同的場景下對框架進(jìn)行選擇。以下是譯文。流式處理的需求每天都在增加，僅僅對大量的數(shù)據(jù)進(jìn)行處理是不夠的。數(shù)據(jù)必須快速地得到處理，以便企業(yè)能夠?qū)崟r地對不斷變化的業(yè)務(wù)環(huán)境做出反應(yīng)。流式處理是持續(xù)而又并發(fā)地對數(shù)據(jù)進(jìn)行實(shí)時處理。流式處理是處理數(shù)據(jù)流或傳感器數(shù)據(jù)的理想平臺，而“復(fù)雜事件處理”(CEP)則利用了逐個事件處理和聚合等技術(shù)。對于實(shí)時數(shù)據(jù)處理功能，我們有很多選擇可以來實(shí)現(xiàn)，比如Spark、Kafka Stream、Flink、Storm等。在這個博客中，我將討論Apache Spark和Kafka Stream的區(qū)別。

Apache Spark

Apache Spark是大規(guī)模數(shù)據(jù)處理的通用框架，支持多種不同的編程語言和概念，例如MapReduce、內(nèi)存處理、流式處理、圖形處理和機(jī)器學(xué)習(xí)。它也可以用于Hadoop的頂層。數(shù)據(jù)可以從多種來源(例如Kafka、Flume、Kinesis或TCP套接字)獲取，并且使用一些復(fù)雜的算法(高級功能，例如映射、歸約、連接和窗口等)對數(shù)據(jù)進(jìn)行處理。

Spark Streaming與Kafka Stream的原理是什么

在框架內(nèi)部，它的工作原理如下圖。 Spark Streaming接收實(shí)時輸入數(shù)據(jù)流，并將數(shù)據(jù)分成多個批次，然后由Spark引擎對其進(jìn)行處理，批量生成最終的結(jié)果流。

Spark Streaming與Kafka Stream的原理是什么

Spark Streaming提供了一個被稱為離散化數(shù)據(jù)流(discretized stream，縮寫為DStream)的高級抽象，它代表了一個持續(xù)的數(shù)據(jù)流。DStream可以從諸如Kafka、Flume或Kinesis等來源的輸入數(shù)據(jù)流中創(chuàng)建，或者通過對其他DStream執(zhí)行高級操作來創(chuàng)建。在框架內(nèi)部，DStream可以看成是一系列的RDD(Resilient Distributed Datasets，彈性分布式數(shù)據(jù)集)。

Kafka Stream

Kafka Streams是一個用于處理和分析數(shù)據(jù)的客戶端庫。它先把存儲在Kafka中的數(shù)據(jù)進(jìn)行處理和分析，然后將最終所得的數(shù)據(jù)結(jié)果回寫到Kafka或發(fā)送到外部系統(tǒng)去。它建立在一些非常重要的流式處理概念之上，例如適當(dāng)區(qū)分事件時間和處理時間、窗口支持，以及應(yīng)用程序狀態(tài)的簡單(高效)管理。同時，它也基于Kafka中的許多概念，例如通過劃分主題進(jìn)行擴(kuò)展。此外，由于這個原因，它作為一個輕量級的庫可以集成到應(yīng)用程序中去。這個應(yīng)用程序可以根據(jù)需要獨(dú)立運(yùn)行、在應(yīng)用程序服務(wù)器中運(yùn)行、作為Docker容器，或通過資源管理器(如Mesos)進(jìn)行操作。

Kafka Streams直接解決了流式處理中的很多困難問題：

毫秒級延遲的逐個事件處理。
有狀態(tài)的處理，包括分布式連接和聚合。
方便的DSL。
使用類似DataFlow的模型對無序數(shù)據(jù)進(jìn)行窗口化。
具有快速故障切換的分布式處理和容錯能力。
無停機(jī)滾動部署。

Apache Spark可以與Kafka一起使用來傳輸數(shù)據(jù)，但是如果你正在為新應(yīng)用程序部署一個Spark集群，這絕對是一個復(fù)雜的大問題。

為了克服這個復(fù)雜性，我們可以使用完整的流式處理框架，Kafka streams正是實(shí)現(xiàn)這個目的的***選擇。

Spark Streaming與Kafka Stream的原理是什么

我們的目標(biāo)是簡化流式處理，使之成為異步服務(wù)的主流應(yīng)用程序編程模型。這是我知道的***個庫，它充分利用了Kafka，而不僅僅把Kafka當(dāng)做是一個信息中介。

Streams建立在KTables和KStreams的概念之上，這有助于他們提供事件時間處理。

給出一個與Kafka的核心抽象高度集成的處理模型，能夠減少流式架構(gòu)中移動件的總數(shù)。

將狀態(tài)表與事件流完全整合起來，并在單個概念框架中提供這兩個東西，這使得Kafka Streams完全成為一個嵌入式的庫，而不是流式處理集群(只是Kafka和你的應(yīng)用程序)。當(dāng)你向應(yīng)用程序加入了一個新的實(shí)例，或者現(xiàn)有的實(shí)例發(fā)生崩潰的時候，它能夠自動均衡負(fù)載，并維護(hù)表的本地狀態(tài)，使得系統(tǒng)能夠從故障中恢復(fù)出來。

Kafka Streams具備低延遲的特點(diǎn)，并且支持易于使用的事件時間。它是一個非常重要的庫，非常適合某些類型的任務(wù)。這也是為什么一些設(shè)計(jì)可以針對Kafka的工作原理進(jìn)行深入地優(yōu)化的原因。你不需要設(shè)置任何種類的Kafka Streams集群，也沒有集群管理器。如果你需要實(shí)現(xiàn)一個簡單的Kafka的主題到主題的轉(zhuǎn)換、通過關(guān)鍵字對元素進(jìn)行計(jì)數(shù)、將另一個主題的數(shù)據(jù)加載到流上，或者運(yùn)行聚合或只執(zhí)行實(shí)時處理，那么Kafka Streams適合于你。

如果事件時間不相關(guān)，并且秒級的延遲可以接受，那么Spark是你的***選擇。它相當(dāng)穩(wěn)定，并且可以很容易地集成到幾乎任何類型的系統(tǒng)中去。此外，每個Hadoop發(fā)行版都包含它。而且，用于批處理應(yīng)用程序的代碼也可以用于流式應(yīng)用程序，因?yàn)锳PI是相同的。

結(jié)論

我認(rèn)為，Kafka Streams最適用于“Kafka > Kafka”場景，而Spark Streaming可用于“Kafka > 數(shù)據(jù)庫”或“Kafka > 數(shù)據(jù)科學(xué)模型“這樣的場景。

上述就是小編為大家分享的Spark Streaming與Kafka Stream的原理是什么了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

Spark Streaming與Kafka Stream的原理是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽