您好,登錄后才能下訂單哦!
如何進(jìn)行基于mdrill的大數(shù)據(jù)分析,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
mdrill是由阿里開(kāi)源的一套數(shù)據(jù)的軟件,針對(duì)TB級(jí)數(shù)據(jù)量,能夠僅用10臺(tái)機(jī)器,達(dá)到秒級(jí)響應(yīng),數(shù)據(jù)能實(shí)時(shí)導(dǎo)入,可以對(duì)任意的維度進(jìn)行組合與過(guò)濾。
mdrill作為數(shù)據(jù)在線分析處理軟件,可以在幾秒到幾十秒的時(shí)間,分析百億級(jí)別的任意組合維度的數(shù)據(jù)。
在阿里10臺(tái)機(jī)器完成每日30億的數(shù)據(jù)存儲(chǔ),其中10億為實(shí)時(shí)的數(shù)據(jù)導(dǎo)入,20億為離線導(dǎo)入。目前集群的總存儲(chǔ)1000多億80~400維度的數(shù)據(jù)。
1.滿足大數(shù)據(jù)查詢需求:adhoc每天的數(shù)據(jù)量為30億條,隨著日積月累,數(shù)據(jù)會(huì)越來(lái)越大,mdrill采用列存儲(chǔ),索引,分布式技術(shù),適當(dāng)?shù)姆謪^(qū)等滿足用戶對(duì)數(shù)據(jù)的實(shí)時(shí)在線分析的需求。
2.支持增量更新:離線形式的mdrill數(shù)據(jù)支持按照分區(qū)方式的增量更新。
3.支持實(shí)時(shí)數(shù)據(jù)導(dǎo)入:在僅有10臺(tái)機(jī)器的情況下,支持每天10億級(jí)別(高峰每小時(shí)2億)的實(shí)時(shí)導(dǎo)入。
4.響應(yīng)時(shí)間快:列存儲(chǔ)、倒排索引、高效的數(shù)據(jù)壓縮、內(nèi)存計(jì)算,各種緩存、分區(qū)、分布式處理等等這些技術(shù),使得mdrill可以僅在幾秒到幾十秒的時(shí)間分析百億級(jí)別的數(shù)據(jù)。
5.低成本:目前在阿里adhoc僅僅使用10臺(tái)48G內(nèi)存的PC機(jī),但確存儲(chǔ)了超過(guò)千億規(guī)模的數(shù)據(jù)。
6.全文檢索模式:強(qiáng)大的條件設(shè)置,任意組合,無(wú)論難易秒級(jí)預(yù)覽,每天160億的數(shù)據(jù)隨意篩選。
時(shí)間點(diǎn) | 數(shù)據(jù)量 | 事件 |
12年12月 | 小于2億 | adhoc首次上線 |
13年1月 | 20~30億 | 由2臺(tái)機(jī)器擴(kuò)容到了10臺(tái) |
13年5月2日 | 100億 | 首次過(guò)百億 |
13年7月24日 | 400億 | 首次開(kāi)源 |
13年11月 | 1000億 | 全文檢索模式ods_allpv_ad_d上線 |
13年12月 | 1500億 | 實(shí)時(shí)數(shù)據(jù)以及無(wú)線數(shù)據(jù)的接入 |
14年2月 | 3200億 | 目前只有11臺(tái)機(jī)器,硬盤(pán)使用率30% |
看完上述內(nèi)容,你們掌握如何進(jìn)行基于mdrill的大數(shù)據(jù)分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。