溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

基于磁盤的Kafka為什么這么快

發(fā)布時(shí)間:2021-12-15 10:19:43 來源:億速云 閱讀:130 作者:柒染 欄目:云計(jì)算

這篇文章將為大家詳細(xì)講解有關(guān)基于磁盤的Kafka為什么這么快,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

Kafka是大數(shù)據(jù)領(lǐng)域無處不在的消息中間件,目前廣泛使用在企業(yè)內(nèi)部的實(shí)時(shí)數(shù)據(jù)管道,并幫助企業(yè)構(gòu)建自己的流計(jì)算應(yīng)用程序。Kafka雖然是基于磁盤做的數(shù)據(jù)存儲(chǔ),但卻具有高性能、高吞吐、低延時(shí)的特點(diǎn),其吞吐量動(dòng)輒幾萬、幾十上百萬,這其中的原由值得我們一探究竟。
 

零拷貝

這里主要講的是Kafka利用linux操作系統(tǒng)的 "零拷貝(zero-copy)" 機(jī)制在消費(fèi)端做的優(yōu)化。首先來了解下數(shù)據(jù)從文件發(fā)送到socket網(wǎng)絡(luò)連接中的常規(guī)傳輸路徑:

  • 操作系統(tǒng)從磁盤讀取數(shù)據(jù)到內(nèi)核空間(kernel space)的Page Cache

  • 應(yīng)用程序讀取Page Cache的數(shù)據(jù)到用戶空間(user space)的緩沖區(qū)

  • 應(yīng)用程序?qū)⒂脩艨臻g緩沖區(qū)的數(shù)據(jù)寫回內(nèi)核空間到socket緩沖區(qū)(socket buffer)

  • 操作系統(tǒng)將數(shù)據(jù)從socket緩沖區(qū)復(fù)制到網(wǎng)絡(luò)發(fā)送的NIC緩沖區(qū)

這個(gè)過程包含4次copy操作和2次系統(tǒng)上下文切換,性能其實(shí)非常低效。linux操作系統(tǒng) "零拷貝" 機(jī)制使用了sendfile方法,允許操作系統(tǒng)將數(shù)據(jù)從Page Cache 直接發(fā)送到網(wǎng)絡(luò),只需要最后一步的copy操作將數(shù)據(jù)復(fù)制到 NIC 緩沖區(qū),這樣避免重新復(fù)制數(shù)據(jù)。示意圖如下:

基于磁盤的Kafka為什么這么快

通過這種 "零拷貝" 的機(jī)制,Page Cache 結(jié)合 sendfile 方法,Kafka消費(fèi)端的性能也大幅提升。這也是為什么有時(shí)候消費(fèi)端在不斷消費(fèi)數(shù)據(jù)時(shí),我們并沒有看到磁盤io比較高,此刻正是操作系統(tǒng)緩存在提供數(shù)據(jù)。

關(guān)于基于磁盤的Kafka為什么這么快就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI