溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

kafka設(shè)計要點簡介

發(fā)布時間:2020-06-13 10:31:38 來源:網(wǎng)絡(luò) 閱讀:413 作者:陳翰林 欄目:開發(fā)技術(shù)

  最近在學(xué)習(xí)kafka,參考官網(wǎng)上的文檔,概括kafka的主要設(shè)計點,希望能幫助大家對kafka的設(shè)計有一個大概的了解,沒說清楚的地方,或者不對的地方希望大家指出,相互幫助學(xué)習(xí),

4.        kafka設(shè)計簡介

1     

2     

3     

4     

4.1    動機

  • 高吞吐量以支持大數(shù)據(jù)量的事件流,例如實時日志集結(jié)

  • 能很好處理大數(shù)據(jù)積壓以支持線下階段性數(shù)據(jù)加載

  • 低延遲的消息傳送,以支持傳統(tǒng)的消息系統(tǒng)應(yīng)用

  • 支持分區(qū),分布式,實時處理

  • 高可用,故障容錯

因此,kafka被設(shè)計成一個有獨特的元素,類似于數(shù)據(jù)庫日志的傳統(tǒng)的消息系統(tǒng)

 

4.2    持久化

  • Kafka直接依賴系統(tǒng)的文件系統(tǒng)存儲和緩存,(java NIO

 

  • 常量時長足夠了

消息系統(tǒng)大多數(shù)使用Btree作為持久化數(shù)據(jù)結(jié)構(gòu),存儲系統(tǒng)一般混合了高速緩存和真正的磁盤讀取,所以讀取性能是不錯的。但是隨著數(shù)據(jù)量的成倍的增長,性能也會成倍的下降

所以kafaka 使用的是持久化隊列,這樣設(shè)計明顯的優(yōu)勢是與數(shù)據(jù)量大小無關(guān),并且讀不會阻塞寫,服務(wù)器可以利用便宜的硬盤獲得可觀的性能

4.3    效率

支持批量存取,批量會有的影響,大的網(wǎng)絡(luò)數(shù)據(jù)包,大的連續(xù)的磁盤操作,連續(xù)內(nèi)存塊請求等等,所有這些都可以使kafka將突發(fā)性的大的數(shù)據(jù)流量轉(zhuǎn)變?yōu)榫€性寫

支持?jǐn)?shù)據(jù)壓縮,并使用直接內(nèi)存(javaNio)避免不必要的程序級別的復(fù)制,支持批量數(shù)據(jù)壓縮(這樣比單獨壓縮一個消息更有效),只有在消費信息的時候才會解壓

4.4    Producer(生產(chǎn)者)

負(fù)載均衡

生產(chǎn)直接可以將消息發(fā)送到broker而不需要任何中間路由,因為kafka每個節(jié)點都提供關(guān)于其主題每個分區(qū)的leader在那個節(jié)點的相關(guān)元數(shù)據(jù)查詢

異步發(fā)送

批量操作是效率提升的一個重要驅(qū)動,producer可以在指定的邊界緩存操作以批量操作

4.5    Consumer(消費者)

  • Push vs poll

Kafka遵從大多數(shù)消息系統(tǒng)的設(shè)計,由producer將數(shù)據(jù)pushbroker,consumer

Broker pull數(shù)據(jù)。而Scribe and Apache Flume 遵從了一個不同的設(shè)計(push based),但這樣有個坑,假如consumer的處理效率沒有broker轉(zhuǎn)發(fā)效率高,就有可能壓垮消費者

4.6    消息傳播

4.7    復(fù)制

  • 法定人數(shù)和狀態(tài)機

大部分日志復(fù)制都采用state-machinestyle,即只要領(lǐng)導(dǎo)者可以用,領(lǐng)導(dǎo)者選擇那些命令用來復(fù)制,跟隨者只要有序的復(fù)制這些值就可以了

大部分系統(tǒng)使用多數(shù)人投票策略(This majority vote approach)來決定leader和消息提交確認(rèn),這樣的好處就可以選擇其中最快的機器作為新的leader.但是這種策略的壞處是,系統(tǒng)不能容忍多的故障。比如你要能容忍f個錯,你就必須有2f+1的復(fù)制才足夠,這樣對于大規(guī)模數(shù)據(jù)來說是不可行的,因為這樣你損失了太多吞吐量了,比如(paxos算法)

kafak利用zookeeper動態(tài)地維護了一套in-syncreplica(ISR),只有ISR集里面的才可以被選為leader,所以容忍f個故障,只要有f+1個復(fù)制就可以了。雖然要容忍f個故障,

Majority vote ISR都需要等同樣多的復(fù)制完成。

kafka另一個特性是允許有不完整數(shù)據(jù)的節(jié)點恢復(fù)

  • 耐用和高可用保證

Producer配置request.required.acks=-1,0,1

0

1表示只要in-sync里的replica都接受了,就認(rèn)為提交成功

-1 表示要in-sync里的復(fù)制都完成寫了,才認(rèn)為提交成功

  • 復(fù)制管理

以上復(fù)制講的是一個主題的一個分區(qū),而kafka管理者上千個這樣的分區(qū)。所以kafka平衡分區(qū)以避免集中一個大的topic的所有分區(qū)在幾個節(jié)點(broker)上,因此kafka將領(lǐng)導(dǎo)職權(quán)平衡到所有節(jié)點上,每個節(jié)點都是它所保存的分區(qū)的一部分的leader

當(dāng)一個節(jié)點失敗,只會對受影響的分區(qū)進行選舉,我們選擇一個broker作為controller,controller負(fù)責(zé)偵測broker級別的錯誤,并負(fù)責(zé)受影響分區(qū)重新選擇leader


向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI