您好,登錄后才能下訂單哦!
1,日志的采集
從flume agent 上的數(shù)據(jù)一般分到兩條線上一條是kafka 集群 ,后期可以用流式處理(spark streaming 或storm 等等)一條是到hdfs,后期可以用hive處理,
業(yè)界叫l(wèi)ambda架構(gòu) architecture (一般公司的推薦系統(tǒng),就是用這種架構(gòu))
flume-ng agent 采集收集日志后,聚合在一個(gè)節(jié)點(diǎn)上(也可以不聚合)
為什么要聚合?為什么不直接寫(xiě)到kafka集群?
假如公司規(guī)模比較大,有無(wú)數(shù)個(gè)flume節(jié)點(diǎn),這么多都連kafka,會(huì)增加復(fù)雜度,有個(gè)聚合節(jié)點(diǎn)(會(huì)是多個(gè)節(jié)點(diǎn)組成,防止單節(jié)點(diǎn)掛了),還可以對(duì)日志格式統(tǒng)一處理,篩選不要的數(shù)據(jù)
hdfs 可以永久保存數(shù)據(jù),mr 可以處理多久數(shù)據(jù)都行
kafka 集群數(shù)據(jù)可以存儲(chǔ)一定時(shí)間不能長(zhǎng)期存儲(chǔ),sparkstreaming 只能處理一定時(shí)間訪問(wèn)內(nèi)數(shù)據(jù)
storm 流
數(shù)據(jù)源 nginx 日志,mysql 日志,tomcat 日志等等->
flume ->
kafka 消息件 消息發(fā)送到這里緩存數(shù)據(jù)一段時(shí)間 ->
spark streaming+spark sql on yarn cluster (實(shí)時(shí)計(jì)算) -> 存儲(chǔ)
1.->redis adminLTE + flask 前端組件 + echarts3 集成到監(jiān)控的系統(tǒng)上
2.->influxdb 時(shí)序分布式數(shù)據(jù)庫(kù) grafana 可視化組件(這兩種結(jié)合比較好)
(elk kibana )
存儲(chǔ)+可視化分析
畫(huà)圖工具
http://www.processon.com/
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。