您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關如何進行基于Flink + Kafka 的實時數倉建設實踐,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
一、背景介紹
高吞吐,低延遲:每秒幾十萬 QPS 且毫秒級延遲;
高并發(fā):支持數千客戶端同時讀寫;
容錯性,可高性:支持數據備份,允許節(jié)點丟失;
可擴展性:支持熱擴展,不會影響當前線上業(yè)務。
高吞吐,低延遲,高性能;
高度靈活的流式窗口;
狀態(tài)計算的 Exactly-once 語義;
輕量級的容錯機制;
支持 EventTime 及亂序事件;
流批統(tǒng)一引擎。
二、Flink+Kafka 平臺化設計
集群 catalog 化;
Topic 流表化;
Message Schema 化。
三、Kafka 在實時數倉中的應用
雖然進行了集群的擴展,但是任務量也在增加,Kafka 集群壓力仍然不斷上升;
集群壓力上升有時候出現 I/O 相關問題,消費任務之間容易相互影響;
用戶消費不同的 Topic 過程沒有中間數據的落地,容易造成重復消費;
任務遷移 Kafka 困難。
如何感知 Kafka 集群狀態(tài)?
如何快速分析 Job 消費異常?
集群概況的監(jiān)控:可以看到不同集群對應的 Topic 數量以及運行任務數量,以及每個 Topic 消費任務數據量、數據流入量、流入總量和平均每條數據大?。?/p>
指標監(jiān)控:可以看到 Flink 任務以及對應的 Topic、GroupID、所屬集群、啟動時間、輸入帶寬、InTPS、OutTPS、消費延遲以及 Lag 情況。
四、問題&改進
多 Sink 下 Kafka Source 重復消費問題;
同交換機流量激增消費計算延遲問題。
五、Q & A
以上就是如何進行基于Flink + Kafka 的實時數倉建設實踐,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業(yè)資訊頻道。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。