溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Redis中HyperLogLog數(shù)據(jù)類型如何使用

發(fā)布時(shí)間:2023-03-13 10:03:34 來源:億速云 閱讀:104 作者:iii 欄目:開發(fā)技術(shù)

這篇文章主要講解了“Redis中HyperLogLog數(shù)據(jù)類型如何使用”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Redis中HyperLogLog數(shù)據(jù)類型如何使用”吧!

1. HyperLogLog 的原理

  Redis HyperLogLog基于一種稱為HyperLogLog算法的概率性算法來估計(jì)基數(shù)。 HyperLogLog使用一個(gè)長(zhǎng)度為m的位數(shù)組和一些hash函數(shù)來估計(jì)集合中的唯一元素?cái)?shù)。

在 HyperLogLog 算法中,對(duì)每個(gè)元素進(jìn)行哈希處理,把哈希值轉(zhuǎn)換為二進(jìn)制后,根據(jù)二進(jìn)制串前綴中 1 的個(gè)數(shù)來給每個(gè)元素打分。例如,一個(gè)元素的哈希值為01110100011,那么前綴中1的個(gè)數(shù)是3,因此在 HyperLogLog 算法中,這個(gè)元素的分?jǐn)?shù)為3。

  當(dāng)所有元素的分?jǐn)?shù)統(tǒng)計(jì)完之后,取每一個(gè)分?jǐn)?shù)的倒數(shù)(1 / 2^n),然后將這些倒數(shù)相加后取倒數(shù),就得到一個(gè)基數(shù)估計(jì)值,這個(gè)值就是HyperLogLog算法的估計(jì)結(jié)果。

  HyperLogLog算法通過對(duì)位數(shù)組的長(zhǎng)度m的大小進(jìn)行取舍,折衷數(shù)據(jù)結(jié)構(gòu)占用的內(nèi)存與估計(jì)值的精準(zhǔn)度(即估計(jì)誤差),得到了在數(shù)據(jù)占用空間與錯(cuò)誤較小程度之間完美的平衡。

  簡(jiǎn)而言之,HyperLogLog算法的核心思想是基于哈希函數(shù)和位運(yùn)算,通過將哈希值轉(zhuǎn)換成比特流并統(tǒng)計(jì)前導(dǎo)0的個(gè)數(shù),從而快速估算大型數(shù)據(jù)集中唯一值的數(shù)量。通過 hyperloglog 算法我們可以在非常大的數(shù)據(jù)集中進(jìn)行極速的網(wǎng)頁瀏覽器去重。

2.使用步驟:

  Redis HyperLogLog是一種可用于估算集合中元素?cái)?shù)量的數(shù)據(jù)結(jié)構(gòu),它能夠通過使用非常少的內(nèi)存來維護(hù)海量的數(shù)據(jù)。它的精確度要比使用一般的估計(jì)算法高,并且在處理大量數(shù)據(jù)時(shí)的速度也非??臁?/p>

  一個(gè)簡(jiǎn)單的例子,我們可以用HyperLogLog來計(jì)算訪問網(wǎng)站的獨(dú)立IP數(shù),具體可以按以下步驟操作:

  • 首先創(chuàng)建一個(gè)HyperLogLog數(shù)據(jù)結(jié)構(gòu):  PFADD hll:unique_ips 127.0.0.1

  • 為每次訪問ip添加到unique_ips數(shù)據(jù)結(jié)構(gòu)中: PFADD hll:unique_ips 192.168.1.1

  • 獲取計(jì)算集合中元素?cái)?shù)量的近似值: PFCOUNT hll:unique_ips

  • 可以通過對(duì)多個(gè)HyperLogLog結(jié)構(gòu)(例如按天或按小時(shí))的合并,來獲得更精確的計(jì)數(shù)。

  需要注意的是,HyperLogLog雖然可以節(jié)省大量的內(nèi)存,但它是一種估計(jì)算法,誤差范圍并不是完全精確的,實(shí)際使用時(shí)應(yīng)注意其適用范圍。

3.實(shí)現(xiàn)請(qǐng)求ip去重的瀏覽量使用示例

Redis中HyperLogLog數(shù)據(jù)類型如何使用

4.Jedis客戶端使用

  1. 添加依賴,引入jedis依賴:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.6.0</version>
</dependency>

  2.創(chuàng)建一個(gè)Jedis對(duì)象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog數(shù)據(jù)結(jié)構(gòu)添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4.獲取計(jì)算集合中元素?cái)?shù)量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通過對(duì)多個(gè)HyperLogLog結(jié)構(gòu)的合并來獲得更精確的計(jì)數(shù)。在Jedis中可以使用PFMERGE命令來合并HyperLogLog數(shù)據(jù)結(jié)構(gòu):

jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

5.Redission使用依賴

  1.創(chuàng)建RedissonClient對(duì)象

Config config = new Config();
config.useSingleServer().setAddress("redis://localhost:6379");
RedissonClient redisson = Redisson.create(config);

  2.創(chuàng)建RHyperLogLog對(duì)象

RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

  3.添加元素

uniqueIps.add("127.0.0.1");

  4..獲取近似數(shù)量

long approximateCount = uniqueIps.count();
System.out.println(approximateCount);

  5.合并多個(gè)HyperLogLog對(duì)象

RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

6.HyperLogLog 提供了哪些特性和方法

  特性:

  • 精確度低,但占用內(nèi)存極少。

  • 支持插入新元素,同時(shí)不會(huì)重復(fù)計(jì)數(shù)。

  • 提供指令來優(yōu)化內(nèi)存使用和計(jì)數(shù)準(zhǔn)確性。例如PFADD、PFCOUNT、PFMERGE等指令。

  • 能夠估計(jì)一個(gè)數(shù)據(jù)集中的不同元素?cái)?shù)量,即集合的基數(shù)(cardinality)。

  • 支持對(duì)多個(gè)HyperLogLog對(duì)象進(jìn)行合并操作,以獲得這些集合的總基數(shù)的近似值。

  HyperLogLog常用的方法:

  • PFADD key element [element ...]:添加一個(gè)或多個(gè)元素到HyperLogLog結(jié)構(gòu)中。

  • PFCOUNT key [key ...]:獲取一個(gè)或多個(gè)HyperLogLog結(jié)構(gòu)的基數(shù)估計(jì)值。

  • PFMERGE destkey sourcekey [sourcekey ...]:合并一個(gè)或多個(gè)HyperLogLog結(jié)構(gòu)到一個(gè)目標(biāo)結(jié)構(gòu)中。

  • PFSELFTEST [numtests]: 測(cè)試HyperLogLog估值性能和準(zhǔn)確性(僅限Redis4.0+版本)

  需要注意的是,HyperLogLog雖然可以節(jié)省大量?jī)?nèi)存,但仍然是一種估計(jì)算法,誤差范圍并不是完全精確的,并且具有一定的計(jì)算成本。在使用時(shí)需要根據(jù)實(shí)際應(yīng)用情況選擇是否使用HyperLogLog或其他數(shù)據(jù)結(jié)構(gòu)來估計(jì)元素?cái)?shù)量。

7.使用場(chǎng)景總結(jié):

  Redis使用HyperLogLog的主要作用是在大數(shù)據(jù)流(view,IP,城市)的情況下進(jìn)行去重計(jì)數(shù)。

  具體來說,以下是Redis HyperLogLog用于去重計(jì)數(shù)的一些場(chǎng)景:

  • 統(tǒng)計(jì)頁面訪問量 - 在Web應(yīng)用程序中, HyperLogLog可以使用為每個(gè)頁面計(jì)算多少次獨(dú)特的訪問者。通過跨越多個(gè)不同的時(shí)間段使用HyperLogLog,可以計(jì)算出這個(gè)頁面的所有時(shí)間的平均訪問數(shù)。

  • 統(tǒng)計(jì)用戶數(shù) - 在分析大數(shù)據(jù)集合的用戶數(shù)量方面,HyperLogLog也非常有用。作為一種基于概率的數(shù)據(jù)結(jié)構(gòu),尤其是在處理獨(dú)特的用戶ID這樣的數(shù)據(jù)集合時(shí)。在此情況下,HyperLogLog首先執(zhí)行散列,此后僅在內(nèi)部存儲(chǔ)有限的散列值,同時(shí)還能夠推斷大小。

  • 統(tǒng)計(jì)廣告點(diǎn)擊量 - 對(duì)于網(wǎng)站或應(yīng)用程序的廣告分析,HyperLogLog可以用于捕獲有效點(diǎn)擊數(shù)量,即非重復(fù)或唯一點(diǎn)擊數(shù)量。

感謝各位的閱讀,以上就是“Redis中HyperLogLog數(shù)據(jù)類型如何使用”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)Redis中HyperLogLog數(shù)據(jù)類型如何使用這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI