溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

關(guān)于kafka的工作原理是什么

發(fā)布時(shí)間：2021-12-03 10:34:33 來(lái)源：億速云閱讀：137 作者：柒染欄目：大數(shù)據(jù)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)關(guān)于kafka的工作原理是什么，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

文章內(nèi)容輸出來(lái)源：拉勾教育Java高薪訓(xùn)練營(yíng)

寫在前沿

工作幾年，一直都沒(méi)有去體系化的學(xué)習(xí)，很多東西沒(méi)有復(fù)雜的工作場(chǎng)景經(jīng)驗(yàn)，最后還是決定報(bào)了拉勾的高薪訓(xùn)練營(yíng)，在這里也是實(shí)實(shí)在在的學(xué)習(xí)到了很多，學(xué)完掌握程度也比之前深了很多，而且還有定期的內(nèi)推，多了更多的機(jī)會(huì)，真的對(duì)我有了很大的幫助提升。特別感謝溫柔可愛(ài)的小竹子班主任和認(rèn)真負(fù)責(zé)帥氣的老可樂(lè)導(dǎo)師給予我的幫助！

為什么需要消息隊(duì)列　　周末無(wú)聊刷著手機(jī)，某寶網(wǎng)APP突然蹦出來(lái)一條消息“為了回饋老客戶，女朋友買一送一，活動(dòng)僅限今天！”。買一送一還有這種好事，那我可不能錯(cuò)過(guò)！忍不住立馬點(diǎn)了去。于是選了兩個(gè)最新款，下單、支付一氣呵成！滿足的躺在床上，想著馬上有女朋友了，竟然幸福的失眠了…… 　　第二天正常上著班，突然接到快遞小哥的電話：　　小哥：“你是xx嗎？你的女朋友到了，我現(xiàn)在在你樓下，你來(lái)拿一下吧！”。　　我：“這……我在上班呢，可以晚上送過(guò)來(lái)嗎？“。　　小哥：“晚上可不行哦，晚上我也下班了呢！”。　　于是兩個(gè)人僵持了很久…… 　　最后小哥說(shuō)，要不我?guī)湍惴诺綐窍滦》急憷臧桑阃砩舷掳嗔诉^(guò)來(lái)拿，尷尬的局面這才得以緩解！

　　回到正題，如果沒(méi)有小芳便利店，那快遞小哥和我的交互圖就應(yīng)該如下：關(guān)于kafka的工作原理是什么

　　會(huì)出現(xiàn)什么情況呢？　　1、為了這個(gè)女朋友，我請(qǐng)假回去拿（老板不批）。　　2、小哥一直在你樓下等（小哥還有其他的快遞要送）。　　3、周末再送（顯然等不及）。　　4、這個(gè)女朋友我不要了（絕對(duì)不可能）！

　　小芳便利店出現(xiàn)后，交互圖就應(yīng)如下：關(guān)于kafka的工作原理是什么

　　在上面例子中，“快遞小哥”和“買女朋友的我”就是需要交互的兩個(gè)系統(tǒng)，小芳便利店就是我們本文要講的-“消息中間件”。總結(jié)下來(lái)小芳便利店（消息中間件）出現(xiàn)后有如下好處：　　1、解耦　　快遞小哥手上有很多快遞需要送，他每次都需要先電話一一確認(rèn)收貨人是否有空、哪個(gè)時(shí)間段有空，然后再確定好送貨的方案。這樣完全依賴收貨人了！如果快遞一多，快遞小哥估計(jì)的忙瘋了……如果有了便利店，快遞小哥只需要將同一個(gè)小區(qū)的快遞放在同一個(gè)便利店，然后通知收貨人來(lái)取貨就可以了，這時(shí)候快遞小哥和收貨人就實(shí)現(xiàn)了解耦！

　　2、異步　　快遞小哥打電話給我后需要一直在你樓下等著，直到我拿走你的快遞他才能去送其他人的?？爝f小哥將快遞放在小芳便利店后，又可以干其他的活兒去了，不需要等待你到來(lái)而一直處于等待狀態(tài)。提高了工作的效率。

　　3、削峰　　假設(shè)雙十一我買了不同店里的各種商品，而恰巧這些店發(fā)貨的快遞都不一樣，有中通、圓通、申通、各種通等……更巧的是他們都同時(shí)到貨了！中通的小哥打來(lái)電話叫我去北門取快遞、圓通小哥叫我去南門、申通小哥叫我去東門。我一時(shí)手忙腳亂……

　　我們能看到在系統(tǒng)需要交互的場(chǎng)景中，使用消息隊(duì)列中間件真的是好處多多，基于這種思路，就有了豐巢、菜鳥驛站等比小芳便利店更專業(yè)的“中間件”了。　　最后，上面的故事純屬虛構(gòu)……

消息隊(duì)列通信的模式　　通過(guò)上面的例子我們引出了消息中間件，并且介紹了消息隊(duì)列出現(xiàn)后的好處，這里就需要介紹消息隊(duì)列通信的兩種模式了：

一、點(diǎn)對(duì)點(diǎn)模式關(guān)于kafka的工作原理是什么

　　如上圖所示，點(diǎn)對(duì)點(diǎn)模式通常是基于拉取或者輪詢的消息傳送模型，這個(gè)模型的特點(diǎn)是發(fā)送到隊(duì)列的消息被一個(gè)且只有一個(gè)消費(fèi)者進(jìn)行處理。生產(chǎn)者將消息放入消息隊(duì)列后，由消費(fèi)者主動(dòng)的去拉取消息進(jìn)行消費(fèi)。點(diǎn)對(duì)點(diǎn)模型的的優(yōu)點(diǎn)是消費(fèi)者拉取消息的頻率可以由自己控制。但是消息隊(duì)列是否有消息需要消費(fèi)，在消費(fèi)者端無(wú)法感知，所以在消費(fèi)者端需要額外的線程去監(jiān)控。

二、發(fā)布訂閱模式關(guān)于kafka的工作原理是什么

　　如上圖所示，發(fā)布訂閱模式是一個(gè)基于消息送的消息傳送模型，改模型可以有多種不同的訂閱者。生產(chǎn)者將消息放入消息隊(duì)列后，隊(duì)列會(huì)將消息推送給訂閱過(guò)該類消息的消費(fèi)者（類似微信公眾號(hào)）。由于是消費(fèi)者被動(dòng)接收推送，所以無(wú)需感知消息隊(duì)列是否有待消費(fèi)的消息！但是consumer1、consumer2、consumer3由于機(jī)器性能不一樣，所以處理消息的能力也會(huì)不一樣，但消息隊(duì)列卻無(wú)法感知消費(fèi)者消費(fèi)的速度！所以推送的速度成了發(fā)布訂閱模模式的一個(gè)問(wèn)題！假設(shè)三個(gè)消費(fèi)者處理速度分別是8M/s、5M/s、2M/s，如果隊(duì)列推送的速度為5M/s，則consumer3無(wú)法承受！如果隊(duì)列推送的速度為2M/s，則consumer1、consumer2會(huì)出現(xiàn)資源的極大浪費(fèi)！

Kafka 　　上面簡(jiǎn)單的介紹了為什么需要消息隊(duì)列以及消息隊(duì)列通信的兩種模式，接下來(lái)就到了我們本文的主角——kafka閃亮登場(chǎng)的時(shí)候了！Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)，具有高性能、持久化、多副本備份、橫向擴(kuò)展能力……… 一些基本的介紹這里就不展開了，網(wǎng)上有太多關(guān)于這些的介紹了，讀者可以自行百度一下！

基礎(chǔ)架構(gòu)及術(shù)語(yǔ) 　　話不多說(shuō)，先看圖，通過(guò)這張圖我們來(lái)捋一捋相關(guān)的概念及之間的關(guān)系：

關(guān)于kafka的工作原理是什么　　如果看到這張圖你很懵逼，木有關(guān)系！我們先來(lái)分析相關(guān)概念　　Producer：Producer即生產(chǎn)者，消息的產(chǎn)生者，是消息的入口。　　kafka cluster：　　　　Broker：Broker是kafka實(shí)例，每個(gè)服務(wù)器上有一個(gè)或多個(gè)kafka的實(shí)例，我們姑且認(rèn)為每個(gè)broker對(duì)應(yīng)一臺(tái)服務(wù)器。每個(gè)kafka集群內(nèi)的broker都有一個(gè)不重復(fù)的編號(hào)，如圖中的broker-0、broker-1等…… 　　　　Topic：消息的主題，可以理解為消息的分類，kafka的數(shù)據(jù)就保存在topic。在每個(gè)broker上都可以創(chuàng)建多個(gè)topic。　　　　Partition：Topic的分區(qū)，每個(gè)topic可以有多個(gè)分區(qū)，分區(qū)的作用是做負(fù)載，提高kafka的吞吐量。同一個(gè)topic在不同的分區(qū)的數(shù)據(jù)是不重復(fù)的，partition的表現(xiàn)形式就是一個(gè)一個(gè)的文件夾！　　　　Replication:每一個(gè)分區(qū)都有多個(gè)副本，副本的作用是做備胎。當(dāng)主分區(qū)（Leader）故障的時(shí)候會(huì)選擇一個(gè)備胎（Follower）上位，成為L(zhǎng)eader。在kafka中默認(rèn)副本的最大數(shù)量是10個(gè)，且副本的數(shù)量不能大于Broker的數(shù)量，follower和leader絕對(duì)是在不同的機(jī)器，同一機(jī)器對(duì)同一個(gè)分區(qū)也只可能存放一個(gè)副本（包括自己）。　　　　Message：每一條發(fā)送的消息主體。　　Consumer：消費(fèi)者，即消息的消費(fèi)方，是消息的出口。　　Consumer Group：我們可以將多個(gè)消費(fèi)組組成一個(gè)消費(fèi)者組，在kafka的設(shè)計(jì)中同一個(gè)分區(qū)的數(shù)據(jù)只能被消費(fèi)者組中的某一個(gè)消費(fèi)者消費(fèi)。同一個(gè)消費(fèi)者組的消費(fèi)者可以消費(fèi)同一個(gè)topic的不同分區(qū)的數(shù)據(jù)，這也是為了提高kafka的吞吐量！　　Zookeeper：kafka集群依賴zookeeper來(lái)保存集群的的元信息，來(lái)保證系統(tǒng)的可用性。

工作流程分析　　上面介紹了kafka的基礎(chǔ)架構(gòu)及基本概念，不知道大家看完有沒(méi)有對(duì)kafka有個(gè)大致印象，如果對(duì)還比較懵也沒(méi)關(guān)系！我們接下來(lái)再結(jié)合上面的結(jié)構(gòu)圖分析kafka的工作流程，最后再回來(lái)整個(gè)梳理一遍我相信你會(huì)更有收獲！

發(fā)送數(shù)據(jù) 　　我們看上面的架構(gòu)圖中，producer就是生產(chǎn)者，是數(shù)據(jù)的入口。注意看圖中的紅色箭頭，Producer在寫入數(shù)據(jù)的時(shí)候永遠(yuǎn)的找leader，不會(huì)直接將數(shù)據(jù)寫入follower！那leader怎么找呢？寫入的流程又是什么樣的呢？我們看下圖：

關(guān)于kafka的工作原理是什么

　　發(fā)送的流程就在圖中已經(jīng)說(shuō)明了，就不單獨(dú)在文字列出來(lái)了！需要注意的一點(diǎn)是，消息寫入leader后，follower是主動(dòng)的去leader進(jìn)行同步的！producer采用push模式將數(shù)據(jù)發(fā)布到broker，每條消息追加到分區(qū)中，順序?qū)懭氪疟P，所以保證同一分區(qū)內(nèi)的數(shù)據(jù)是有序的！寫入示意圖如下：

關(guān)于kafka的工作原理是什么

　　上面說(shuō)到數(shù)據(jù)會(huì)寫入到不同的分區(qū)，那kafka為什么要做分區(qū)呢？相信大家應(yīng)該也能猜到，分區(qū)的主要目的是：　　1、方便擴(kuò)展。因?yàn)橐粋€(gè)topic可以有多個(gè)partition，所以我們可以通過(guò)擴(kuò)展機(jī)器去輕松的應(yīng)對(duì)日益增長(zhǎng)的數(shù)據(jù)量。　　2、提高并發(fā)。以partition為讀寫單位，可以多個(gè)消費(fèi)者同時(shí)消費(fèi)數(shù)據(jù)，提高了消息的處理效率。

　　熟悉負(fù)載均衡的朋友應(yīng)該知道，當(dāng)我們向某個(gè)服務(wù)器發(fā)送請(qǐng)求的時(shí)候，服務(wù)端可能會(huì)對(duì)請(qǐng)求做一個(gè)負(fù)載，將流量分發(fā)到不同的服務(wù)器，那在kafka中，如果某個(gè)topic有多個(gè)partition，producer又怎么知道該將數(shù)據(jù)發(fā)往哪個(gè)partition呢？kafka中有幾個(gè)原則：　　1、 partition在寫入的時(shí)候可以指定需要寫入的partition，如果有指定，則寫入對(duì)應(yīng)的partition。　　2、如果沒(méi)有指定partition，但是設(shè)置了數(shù)據(jù)的key，則會(huì)根據(jù)key的值hash出一個(gè)partition。　　3、如果既沒(méi)指定partition，又沒(méi)有設(shè)置key，則會(huì)輪詢選出一個(gè)partition。

　　保證消息不丟失是一個(gè)消息隊(duì)列中間件的基本保證，那producer在向kafka寫入消息的時(shí)候，怎么保證消息不丟失呢？其實(shí)上面的寫入流程圖中有描述出來(lái)，那就是通過(guò)ACK應(yīng)答機(jī)制！在生產(chǎn)者向隊(duì)列寫入數(shù)據(jù)的時(shí)候可以設(shè)置參數(shù)來(lái)確定是否確認(rèn)kafka接收到數(shù)據(jù)，這個(gè)參數(shù)可設(shè)置的值為0、1、all。　　

0代表producer往集群發(fā)送數(shù)據(jù)不需要等到集群的返回，不確保消息發(fā)送成功。安全性最低但是效率最高。　　

1代表producer往集群發(fā)送數(shù)據(jù)只要leader應(yīng)答就可以發(fā)送下一條，只確保leader發(fā)送成功。　　

all代表producer往集群發(fā)送數(shù)據(jù)需要所有的follower都完成從leader的同步才會(huì)發(fā)送下一條，確保leader發(fā)送成功和所有的副本都完成備份。安全性最高，但是效率最低。

　　最后要注意的是，如果往不存在的topic寫數(shù)據(jù)，能不能寫入成功呢？kafka會(huì)自動(dòng)創(chuàng)建topic，分區(qū)和副本的數(shù)量根據(jù)默認(rèn)配置都是1。

保存數(shù)據(jù) 　　

Producer將數(shù)據(jù)寫入kafka后，集群就需要對(duì)數(shù)據(jù)進(jìn)行保存了！kafka將數(shù)據(jù)保存在磁盤，可能在我們的一般的認(rèn)知里，寫入磁盤是比較耗時(shí)的操作，不適合這種高并發(fā)的組件。Kafka初始會(huì)單獨(dú)開辟一塊磁盤空間，順序?qū)懭霐?shù)據(jù)（效率比隨機(jī)寫入高）。

Partition 結(jié)構(gòu) 　　

前面說(shuō)過(guò)了每個(gè)topic都可以分為一個(gè)或多個(gè)partition，如果你覺(jué)得topic比較抽象，那partition就是比較具體的東西了！Partition在服務(wù)器上的表現(xiàn)形式就是一個(gè)一個(gè)的文件夾，每個(gè)partition的文件夾下面會(huì)有多組segment文件，每組segment文件又包含.index文件、.log文件、.timeindex文件（早期版本中沒(méi)有）三個(gè)文件， log文件就實(shí)際是存儲(chǔ)message的地方，而index和timeindex文件為索引文件，用于檢索消息。

關(guān)于kafka的工作原理是什么

　　如上圖，這個(gè)partition有三組segment文件，每個(gè)log文件的大小是一樣的，但是存儲(chǔ)的message數(shù)量是不一定相等的（每條的message大小不一致）。文件的命名是以該segment最小offset來(lái)命名的，如000.index存儲(chǔ)offset為0~368795的消息，kafka就是利用分段+索引的方式來(lái)解決查找效率的問(wèn)題。

Message結(jié)構(gòu) 上面說(shuō)到log文件就實(shí)際是存儲(chǔ)message的地方，我們?cè)趐roducer往kafka寫入的也是一條一條的message，那存儲(chǔ)在log中的message是什么樣子的呢？消息主要包含消息體、消息大小、offset、壓縮類型……等等！我們重點(diǎn)需要知道的是下面三個(gè)：　　

1、 offset：offset是一個(gè)占8byte的有序id號(hào)，它可以唯一確定每條消息在parition內(nèi)的位置！　　

2、消息大?。合⒋笮≌加?byte，用于描述消息的大小。　　

3、消息體：消息體存放的是實(shí)際的消息數(shù)據(jù)（被壓縮過(guò)），占用的空間根據(jù)具體的消息而不一樣。

存儲(chǔ)策略　　

無(wú)論消息是否被消費(fèi)，kafka都會(huì)保存所有的消息。那對(duì)于舊數(shù)據(jù)有什么刪除策略呢？　　

1、基于時(shí)間，默認(rèn)配置是168小時(shí)（7天）。　　

2、基于大小，默認(rèn)配置是1073741824。　　

需要注意的是，kafka讀取特定消息的時(shí)間復(fù)雜度是O(1)，所以這里刪除過(guò)期的文件并不會(huì)提高kafka的性能！

消費(fèi)數(shù)據(jù) 　　

消息存儲(chǔ)在log文件后，消費(fèi)者就可以進(jìn)行消費(fèi)了。與生產(chǎn)消息相同的是，消費(fèi)者在拉取消息的時(shí)候也是找leader去拉取。

　　多個(gè)消費(fèi)者可以組成一個(gè)消費(fèi)者組（consumer group），每個(gè)消費(fèi)者組都有一個(gè)組id！同一個(gè)消費(fèi)組者的消費(fèi)者可以消費(fèi)同一topic下不同分區(qū)的數(shù)據(jù)，但是不會(huì)組內(nèi)多個(gè)消費(fèi)者消費(fèi)同一分區(qū)的數(shù)據(jù)?。?！是不是有點(diǎn)繞。我們看下圖：

關(guān)于kafka的工作原理是什么

　　圖示是消費(fèi)者組內(nèi)的消費(fèi)者小于partition數(shù)量的情況，所以會(huì)出現(xiàn)某個(gè)消費(fèi)者消費(fèi)多個(gè)partition數(shù)據(jù)的情況，消費(fèi)的速度也就不及只處理一個(gè)partition的消費(fèi)者的處理速度！如果是消費(fèi)者組的消費(fèi)者多于partition的數(shù)量，那會(huì)不會(huì)出現(xiàn)多個(gè)消費(fèi)者消費(fèi)同一個(gè)partition的數(shù)據(jù)呢？上面已經(jīng)提到過(guò)不會(huì)出現(xiàn)這種情況！多出來(lái)的消費(fèi)者不消費(fèi)任何partition的數(shù)據(jù)。所以在實(shí)際的應(yīng)用中，建議消費(fèi)者組的consumer的數(shù)量與partition的數(shù)量一致！　　

在保存數(shù)據(jù)的小節(jié)里面，我們聊到了partition劃分為多組segment，每個(gè)segment又包含.log、.index、.timeindex文件，存放的每條message包含offset、消息大小、消息體……我們多次提到segment和offset，查找消息的時(shí)候是怎么利用segment+offset配合查找的呢？假如現(xiàn)在需要查找一個(gè)offset為368801的message是什么樣的過(guò)程呢？我們先看看下面的圖：

關(guān)于kafka的工作原理是什么

　　1、先找到offset的368801message所在的segment文件（利用二分法查找），這里找到的就是在第二個(gè)segment文件。　　2、打開找到的segment中的.index文件（也就是368796.index文件，該文件起始偏移量為368796+1，我們要查找的offset為368801的message在該index內(nèi)的偏移量為368796+5=368801，所以這里要查找的相對(duì)offset為5）。由于該文件采用的是稀疏索引的方式存儲(chǔ)著相對(duì)offset及對(duì)應(yīng)message物理偏移量的關(guān)系，所以直接找相對(duì)offset為5的索引找不到，這里同樣利用二分法查找相對(duì)offset小于或者等于指定的相對(duì)offset的索引條目中最大的那個(gè)相對(duì)offset，所以找到的是相對(duì)offset為4的這個(gè)索引。　　

3、根據(jù)找到的相對(duì)offset為4的索引確定message存儲(chǔ)的物理偏移位置為256。打開數(shù)據(jù)文件，從位置為256的那個(gè)地方開始順序掃描直到找到offset為368801的那條Message。

　　這套機(jī)制是建立在offset為有序的基礎(chǔ)上，利用segment+有序offset+稀疏索引+二分查找+順序查找等多種手段來(lái)高效的查找數(shù)據(jù)！至此，消費(fèi)者就能拿到需要處理的數(shù)據(jù)進(jìn)行處理了。那每個(gè)消費(fèi)者又是怎么記錄自己消費(fèi)的位置呢？在早期的版本中，消費(fèi)者將消費(fèi)到的offset維護(hù)zookeeper中，consumer每間隔一段時(shí)間上報(bào)一次，這里容易導(dǎo)致重復(fù)消費(fèi)，且性能不好！在新的版本中消費(fèi)者消費(fèi)到的offset已經(jīng)直接維護(hù)在kafk集群的__consumer_offsets這個(gè)topic中！

上述就是小編為大家分享的關(guān)于kafka的工作原理是什么了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Spark中會(huì)遇到什么坑
下一篇新聞：
tk.Mybatis插入數(shù)據(jù)獲取Id怎么實(shí)現(xiàn)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<acronym id="l6114"><meter id="l6114"></meter></acronym>