您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關(guān)HyperLogLog函數(shù)在Spark中的如何應(yīng)用的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。
預(yù)聚合是數(shù)據(jù)分析領(lǐng)域的一個(gè)強(qiáng)大的技術(shù)手段,前提就是所要計(jì)算的指標(biāo)是可重聚合的。聚合操作,顧名思義,是滿足結(jié)合律的,所以很容易引入再聚合操作,因?yàn)榫酆喜僮骺梢栽俦贿M(jìn)一步聚合。Counts 可以在通過 SUM 再聚合,最小值可以通過 MIN 再聚合,最大值也可以通過 MAX 再聚合。而 distinct counts 是特例,無法做再聚合,例如,不同網(wǎng)站訪問者的 distinct count 的總和并不等于所有網(wǎng)站訪問者的 distinct count 值,原因很簡單,同一個(gè)用戶可能訪問了不同的網(wǎng)站,直接求和就存在了重復(fù)統(tǒng)計(jì)的問題。
Distinct count 的不可再聚合的特性造成了很大的影響,計(jì)算 distinct count 必須要訪問到最細(xì)粒度的數(shù)據(jù),更進(jìn)一步來說,就是計(jì)算 distinct count 的查詢必須讀取每一行數(shù)據(jù)。
Map (每個(gè) partition)
初始化 HLL 數(shù)據(jù)結(jié)構(gòu),稱作 HLL sketch
將每個(gè)輸入添加到 sketch 中
發(fā)送 sketch
Reduce
聚合所有 sketch 到一個(gè) aggregate sketch 中
Finalize
計(jì)算 aggregate sketch 中的 distinct count 近似值
hll_init_agg
), reaggregation (通過
hll_merge
) 和 presentation (通過
hll_cardinality
)。
99+%的數(shù)據(jù)僅通過 Spark 進(jìn)行管理,沒有重復(fù)
在預(yù)聚合階段,99+%的數(shù)據(jù)通過 Spark 處理
交互式查詢響應(yīng)時(shí)間大幅縮短,處理的數(shù)據(jù)量也大幅較少
感謝各位的閱讀!關(guān)于“HyperLogLog函數(shù)在Spark中的如何應(yīng)用”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。