Kafka如何實現(xiàn)每秒上百萬的超高并發(fā)寫入

發(fā)布時間：2021-12-15 11:46:51 來源：億速云閱讀：281 作者：柒染欄目：開發(fā)技術(shù)

Kafka如何實現(xiàn)每秒上百萬的超高并發(fā)寫入，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

來聊一下 Kafka 的一些架構(gòu)設計原理，這也是互聯(lián)網(wǎng)公司面試時非常高頻的技術(shù)考點。

Kafka 是高吞吐低延遲的高并發(fā)、高性能的消息中間件，在大數(shù)據(jù)領(lǐng)域有極為廣泛的運用。配置良好的 Kafka 集群甚至可以做到每秒幾十萬、上百萬的超高并發(fā)寫入。

那么 Kafka 到底是如何做到這么高的吞吐量和性能的呢?這篇文章我們來詳細說一下。

頁緩存技術(shù) + 磁盤順序?qū)?/strong>

首先 Kafka 每次接收到數(shù)據(jù)都會往磁盤上去寫，如下圖所示：

那么在這里我們不禁有一個疑問了，如果把數(shù)據(jù)基于磁盤來存儲，頻繁的往磁盤文件里寫數(shù)據(jù)，這個性能會不會很差?大家肯定都覺得磁盤寫性能是極差的。

沒錯，要是真的跟上面那個圖那么簡單的話，那確實這個性能是比較差的。

但是實際上 Kafka 在這里有極為優(yōu)秀和出色的設計，就是為了保證數(shù)據(jù)寫入性能，首先 Kafka 是基于操作系統(tǒng)的頁緩存來實現(xiàn)文件寫入的。

操作系統(tǒng)本身有一層緩存，叫做 Page Cache，是在內(nèi)存里的緩存，我們也可以稱之為 OS Cache，意思就是操作系統(tǒng)自己管理的緩存。

你在寫入磁盤文件的時候，可以直接寫入這個 OS Cache 里，也就是僅僅寫入內(nèi)存中，接下來由操作系統(tǒng)自己決定什么時候把 OS Cache 里的數(shù)據(jù)真的刷入磁盤文件中。

僅僅這一個步驟，就可以將磁盤文件寫性能提升很多了，因為其實這里相當于是在寫內(nèi)存，不是在寫磁盤，大家看下圖：

接著另外一個就是 kafka 寫數(shù)據(jù)的時候，非常關(guān)鍵的一點，它是以磁盤順序?qū)懙姆绞絹韺懙摹?/p>

也就是說，僅僅將數(shù)據(jù)追加到文件的末尾，不是在文件的隨機位置來修改數(shù)據(jù)。

普通的機械磁盤如果你要是隨機寫的話，確實性能極差，也就是隨便找到文件的某個位置來寫數(shù)據(jù)。

但是如果你是追加文件末尾按照順序的方式來寫數(shù)據(jù)的話，那么這種磁盤順序?qū)懙男阅芑旧峡梢愿鷮憙?nèi)存的性能本身也是差不多的。

所以大家就知道了，上面那個圖里，Kafka 在寫數(shù)據(jù)的時候，一方面基于 OS 層面的 Page Cache 來寫數(shù)據(jù)，所以性能很高，本質(zhì)就是在寫內(nèi)存罷了。

另外一個，它是采用磁盤順序?qū)懙姆绞?，所以即使?shù)據(jù)刷入磁盤的時候，性能也是極高的，也跟寫內(nèi)存是差不多的。

基于上面兩點，Kafka 就實現(xiàn)了寫入數(shù)據(jù)的超高性能。那么大家想想，假如說 Kafka 寫入一條數(shù)據(jù)要耗費 1 毫秒的時間，那么是不是每秒就是可以寫入 1000 條數(shù)據(jù)?

但是假如 Kafka 的性能極高，寫入一條數(shù)據(jù)僅僅耗費 0.01 毫秒呢?那么每秒是不是就可以寫入 10 萬條數(shù)據(jù)?

所以要保證每秒寫入幾萬甚至幾十萬條數(shù)據(jù)的核心點，就是盡***可能提升每條數(shù)據(jù)寫入的性能，這樣就可以在單位時間內(nèi)寫入更多的數(shù)據(jù)量，提升吞吐量。

零拷貝技術(shù)

說完了寫入這塊，再來談談消費這塊。

大家應該都知道，從 Kafka 里我們經(jīng)常要消費數(shù)據(jù)，那么消費的時候?qū)嶋H上就是要從 Kafka 的磁盤文件里讀取某條數(shù)據(jù)然后發(fā)送給下游的消費者，如下圖所示：

那么這里如果頻繁的從磁盤讀數(shù)據(jù)然后發(fā)給消費者，性能瓶頸在哪里呢?

假設要是 Kafka 什么優(yōu)化都不做，就是很簡單的從磁盤讀數(shù)據(jù)發(fā)送給下游的消費者，那么大概過程如下所示：

先看看要讀的數(shù)據(jù)在不在 OS Cache 里，如果不在的話就從磁盤文件里讀取數(shù)據(jù)后放入 OS Cache。
接著從操作系統(tǒng)的 OS Cache 里拷貝數(shù)據(jù)到應用程序進程的緩存里，再從應用程序進程的緩存里拷貝數(shù)據(jù)到操作系統(tǒng)層面的 Socket 緩存里。
***從 Socket 緩存里提取數(shù)據(jù)后發(fā)送到網(wǎng)卡，***發(fā)送出去給下游消費。

整個過程，如下圖所示：

大家看上圖，很明顯可以看到有兩次沒必要的拷貝吧!一次是從操作系統(tǒng)的 Cache 里拷貝到應用進程的緩存里，接著又從應用程序緩存里拷貝回操作系統(tǒng)的 Socket 緩存里。

而且為了進行這兩次拷貝，中間還發(fā)生了好幾次上下文切換，一會兒是應用程序在執(zhí)行，一會兒上下文切換到操作系統(tǒng)來執(zhí)行。

所以這種方式來讀取數(shù)據(jù)是比較消耗性能的。Kafka 為了解決這個問題，在讀數(shù)據(jù)的時候是引入零拷貝技術(shù)。

也就是說，直接讓操作系統(tǒng)的 Cache 中的數(shù)據(jù)發(fā)送到網(wǎng)卡后傳輸給下游的消費者，中間跳過了兩次拷貝數(shù)據(jù)的步驟，Socket 緩存中僅僅會拷貝一個描述符過去，不會拷貝數(shù)據(jù)到 Socket 緩存。

大家看下圖，體會一下這個精妙的過程：

通過零拷貝技術(shù)，就不需要把 OS Cache 里的數(shù)據(jù)拷貝到應用緩存，再從應用緩存拷貝到 Socket 緩存了，兩次拷貝都省略了，所以叫做零拷貝。

對 Socket 緩存僅僅就是拷貝數(shù)據(jù)的描述符過去，然后數(shù)據(jù)就直接從 OS Cache 中發(fā)送到網(wǎng)卡上去了，這個過程大大的提升了數(shù)據(jù)消費時讀取文件數(shù)據(jù)的性能。

而且大家會注意到，在從磁盤讀數(shù)據(jù)的時候，會先看看 OS Cache 內(nèi)存中是否有，如果有的話，其實讀數(shù)據(jù)都是直接讀內(nèi)存的。

如果 Kafka 集群經(jīng)過良好的調(diào)優(yōu)，大家會發(fā)現(xiàn)大量的數(shù)據(jù)都是直接寫入 OS Cache 中，然后讀數(shù)據(jù)的時候也是從 OS Cache 中讀。

相當于是 Kafka 完全基于內(nèi)存提供數(shù)據(jù)的寫和讀了，所以這個整體性能會極其的高。其實 ES 底層也是大量基于 OS Cache 實現(xiàn)了海量數(shù)據(jù)的高性能檢索的，跟 Kafka 原理類似。

看完上述內(nèi)容，你們掌握Kafka如何實現(xiàn)每秒上百萬的超高并發(fā)寫入的方法了嗎？如果還想學到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細節(jié)

推薦閱讀：

這幾個質(zhì)量超高的自學網(wǎng)站，每天逛10分鐘，年薪百萬不是問題！

Golang中怎么實現(xiàn)百萬級高并發(fā)

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

kafka

上一篇新聞：
Kafka 宕機以及Kafka 高可用原理是怎樣理解的

下一篇新聞：
MyBatis之動態(tài)SQL語句的示例分析

猜你喜歡

linux實時監(jiān)控日志怎么設置

怎么用shell腳本清理日志

docker端口映射的作用是什么

win7安全模式如何進入

win7怎么徹底關(guān)閉進程

python中format函數(shù)的作用是什么

java怎么執(zhí)行shell腳本

c語言中的goto語句怎么用

c++如何保留兩位小數(shù)

win7如何關(guān)閉運行程序

最新資訊

Android Studio中控件的陰影效果如何實現(xiàn)

控件事件監(jiān)聽器編寫規(guī)范

控件單元測試編寫與執(zhí)行

Android Studio控件API變更追蹤

控件狀態(tài)保存與恢復機制

控件觸摸反饋自定義

控件動態(tài)添加與移除技巧

控件無障礙設計在Android Studio中

控件權(quán)限與隱私保護考量

控件樣式繼承與覆蓋策略

相關(guān)推薦

Redis單數(shù)據(jù)多源超高并發(fā)下的解決方法

Python中aiohttp百萬并發(fā)極限測試的示例分析

每秒570000的寫入，MySQL如何實現(xiàn)？

MySQL每秒57萬的寫入，快還是慢？

Kafka寫入為什么那么快

Kafka是如何實現(xiàn)高并發(fā)幾十萬的寫入的

MySQL每秒570000的寫入怎么實現(xiàn)

Kafka集群突破百萬中partition的技術(shù)分析

如何使用SQL讀取Kafka并寫入MySQL

C++基于reactor的服務器百萬并發(fā)如何實現(xiàn)

相關(guān)標簽

kafka安裝 kafka集群搭建 kafka zookeeper kafka原理 librdkafka kafka集群 spring-kafka apache kafka kickstart react-devtools 另存為電腦桌面 winsock 下半年 oradebug 自學 closed 同一地點受歡迎