溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

kafka該如何入門

發(fā)布時(shí)間:2021-12-15 09:50:45 來源:億速云 閱讀:118 作者:柒染 欄目:大數(shù)據(jù)

kafka該如何入門,針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。

背景:

當(dāng)今社會(huì)各種應(yīng)用系統(tǒng)諸如商業(yè)、社交、搜索、瀏覽等像信息工廠一樣不斷的生產(chǎn)出各種信息,在大數(shù)據(jù)時(shí)代,我們面臨如下幾個(gè)挑戰(zhàn):

  1. 如何收集這些巨大的信息

  2. 如何分析它

  3. 如何及時(shí)做到如上兩點(diǎn)

以上幾個(gè)挑戰(zhàn)形成了一個(gè)業(yè)務(wù)需求模型,即生產(chǎn)者生產(chǎn)(produce)各種信息,消費(fèi)者消費(fèi)(consume)(處理分析)這些信息,而在生產(chǎn)者與消費(fèi)者之間,需要一個(gè)溝通兩者的橋梁-消息系統(tǒng)。

從一個(gè)微觀層面來說,這種需求也可理解為不同的系統(tǒng)之間如何傳遞消息。

Kafka誕生:由 linked-in 開源

kafka-即是解決這類問題的一個(gè)框架,它實(shí)現(xiàn)了生產(chǎn)者和消費(fèi)者之間的無縫連接。

kafka-高產(chǎn)出的分布式消息系統(tǒng)(A high-throughput distributed messaging system)

Kafka特性:它形容自己的設(shè)計(jì)是獨(dú)一無二的,先看一下它有如何過人之處:

  • 快:?jiǎn)蝹€(gè)kafka服務(wù)每秒可處理數(shù)以千計(jì)客戶端發(fā)來的幾百M(fèi)B數(shù)據(jù)。

  • 可擴(kuò)展性:一個(gè)單一集群可作為一個(gè)大數(shù)據(jù)處理中樞,集中處理各種類型業(yè)務(wù)

  • 持久化:消息被持久化到磁盤(可處理TB數(shù)據(jù)級(jí)別數(shù)據(jù)但仍保持極高數(shù)據(jù)處理效率),并且有備份容錯(cuò)機(jī)制

  • 分布式:著眼于大數(shù)據(jù)領(lǐng)域,支持分布式,集群可處理每秒百萬級(jí)別消息

  • 實(shí)時(shí)性:生產(chǎn)出的消息可立即被消費(fèi)者消費(fèi)

kafka該如何入門

Kafka的組件:

  • topic:消息存放的目錄即主題

  • Producer:生產(chǎn)消息到topic的一方

  • Consumer:訂閱topic消費(fèi)消息的一方

  • Broker:Kafka的服務(wù)實(shí)例就是一個(gè)broker

如下圖所示,Producer生產(chǎn)的消息通過網(wǎng)絡(luò)發(fā)送給Kafka cluster,而Consumer從其中消費(fèi)消息

kafka該如何入門

Topic 和Partition:

消息發(fā)送時(shí)都被發(fā)送到一個(gè)topic,其本質(zhì)就是一個(gè)目錄,而topic由是由一些Partition Logs(分區(qū)日志)組成,其組織結(jié)構(gòu)如下圖所示:

(一個(gè)主題可以包含多個(gè)分區(qū))

kafka該如何入門

我們可以看到,每個(gè)Partition中的消息都是有序的,生產(chǎn)的消息被不斷追加到Partition log上,其中的每一個(gè)消息都被賦予了一個(gè)唯一的offset值。

Kafka集群會(huì)保存所有的消息,不管消息有沒有被消費(fèi);我們可以設(shè)定消息的過期時(shí)間,只有過期的數(shù)據(jù)才會(huì)被自動(dòng)清除以釋放磁盤空間。比如我們?cè)O(shè)置消息過期時(shí)間為2天,那么這2天內(nèi)的所有消息都會(huì)被保存到集群中,數(shù)據(jù)只有超過了兩天才會(huì)被清除。

Kafka需要維持的元數(shù)據(jù)只有一個(gè)--消費(fèi)消息在Partition中的offset值,Consumer每消費(fèi)一個(gè)消息,offset就會(huì)加1。其實(shí)消息的狀態(tài)完全是由Consumer控制的,Consumer可以跟蹤和重設(shè)這個(gè)offset值,這樣的話Consumer就可以讀取任意位置的消息。

把消息日志以Partition的形式存放有多重考慮,第一,方便在集群中擴(kuò)展,每個(gè)Partition可以通過調(diào)整以適應(yīng)它所在的機(jī)器,而一個(gè)topic又可以有多個(gè)Partition組成,因此整個(gè)集群就可以適應(yīng)任意大小的數(shù)據(jù)了;第二就是可以提高并發(fā),因?yàn)榭梢砸訮artition為單位讀寫了。

分布式:

(主從集群)

這些Partitions分布在集群的每一臺(tái)server上,而每一個(gè)Partition在集群中都可以有多個(gè)備份,這個(gè)備份數(shù)量是可配置的。

每個(gè)Partition都有一個(gè)leader server,而其他備份的server都稱為followers,只有l(wèi)eader服務(wù)器才會(huì)處理這個(gè)Partition上所有的讀寫請(qǐng)求,而其它followers則被動(dòng)的復(fù)制leader上的數(shù)據(jù)。如果一個(gè)leader掛掉了,followers中的一個(gè)服務(wù)器則會(huì)自動(dòng)升級(jí)為leader。因此,其實(shí)集群中的每個(gè)服務(wù)器都扮演著一個(gè)Partition的leader服務(wù)器,和其它Partition的follower服務(wù)器。

Producers:

Producer可以根據(jù)自己的選擇發(fā)布消息到一個(gè)主題,Producer也可以自己決定把消息發(fā)布到這個(gè)主題的哪個(gè)Partition,當(dāng)然我們可以選擇API提供的簡(jiǎn)單的分區(qū)選擇算法,也可以自己去實(shí)現(xiàn)一個(gè)分區(qū)選擇算法。

Consumers:

消息傳遞通常由兩種模式,queuing(隊(duì)列)和publish-subscribe (發(fā)布-訂閱)

  • queuing:每個(gè)Consumer從消息隊(duì)列中取走一個(gè)消息

  • pub-scrib:消息被廣播到每個(gè)Consumer

Kafka通過提供了一個(gè)對(duì)Consumer的抽象來同時(shí)實(shí)現(xiàn)這兩種模式-ConsumerGroup。Consumer實(shí)例需要給自己指定一個(gè)ConsumerGroup的名字,如果所有的實(shí)例都用同一個(gè)ConsumerGroup名字,那么這些Consumer就會(huì)以queuing的模式工作;如果所有的實(shí)例分別用的不同的ConsumerGroup名字,那么它們就以public-subscribe模式工作。

(group的概念只針對(duì)于客戶端,如果有多個(gè)客戶端定義了多個(gè)組時(shí),broker會(huì)以pub-scrib的形式將消息發(fā)送到每一個(gè)group上)

如下圖所示:含兩臺(tái)server的集群一共有p0~p3四個(gè)Partition,兩個(gè)Consumer Group,在Group內(nèi)部是以queuing的模式消費(fèi)Partition,在Group之間是以pub-scrib模式消費(fèi)。

kafka該如何入門

消息順序性:

Kafka是如何確保消息消費(fèi)的順序性的呢?前面講到過Partition,消息在一個(gè)Partition中的順序是有序的,但是Kafka只保證消息在一個(gè)Partition中有序,如果要想使整個(gè)topic中的消息有序,那么一個(gè)topic僅設(shè)置一個(gè)Partition即可。

關(guān)于kafka該如何入門問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI