<nobr id="hbj22"><pre id="hbj22"></pre></nobr>

<thead id="hbj22"></thead>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Redis 中布隆過濾器的實現(xiàn)

發(fā)布時間：2021-06-03 17:20:18 來源：億速云閱讀：311 作者：Leah 欄目：數(shù)據(jù)庫

Redis 中布隆過濾器的實現(xiàn)？相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

什么是『布隆過濾器』

布隆過濾器是一個神奇的數(shù)據(jù)結(jié)構(gòu)，可以用來判斷一個元素是否在一個集合中。很常用的一個功能是用來去重。在爬蟲中常見的一個需求：目標(biāo)網(wǎng)站 URL 千千萬，怎么判斷某個 URL 爬蟲是否寵幸過？簡單點可以爬蟲每采集過一個 URL，就把這個 URL 存入數(shù)據(jù)庫中，每次一個新的 URL 過來就到數(shù)據(jù)庫查詢下是否訪問過。

select id from table where url = 'https://jaychen.cc'

但是隨著爬蟲爬過的 URL 越來越多，每次請求前都要訪問數(shù)據(jù)庫一次，并且對于這種字符串的 SQL 查詢效率并不高。除了數(shù)據(jù)庫之外，使用 Redis 的 set 結(jié)構(gòu)也可以滿足這個需求，并且性能優(yōu)于數(shù)據(jù)庫。但是 Redis 也存在一個問題：耗費過多的內(nèi)存。這個時候布隆過濾器就很橫的出場了：這個問題讓我來。

相比于數(shù)據(jù)庫和 Redis，使用布隆過濾器可以很好的避免性能和內(nèi)存占用的問題。

布隆過濾器本質(zhì)是一個位數(shù)組，位數(shù)組就是數(shù)組的每個元素都只占用 1 bit 。每個元素只能是 0 或者 1。這樣申請一個 10000 個元素的位數(shù)組只占用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個位數(shù)組，還有 K 個哈希函數(shù)。當(dāng)一個元素加入布隆過濾器中的時候，會進(jìn)行如下操作：

使用 K 個哈希函數(shù)對元素值進(jìn)行 K 次計算，得到 K 個哈希值。
根據(jù)得到的哈希值，在位數(shù)組中把對應(yīng)下標(biāo)的值置為 1。

舉個?，假設(shè)布隆過濾器有 3 個哈希函數(shù)：f1, f2, f3 和一個位數(shù)組 arr?，F(xiàn)在要把 https://jaychen.cc 插入布隆過濾器中：

對值進(jìn)行三次哈希計算，得到三個值 n1, n2, n3。
把位數(shù)組中三個元素 arr[n1], arr[n2], arr[3] 置為 1。

當(dāng)要判斷一個值是否在布隆過濾器中，對元素再次進(jìn)行哈希計算，得到值之后判斷位數(shù)組中的每個元素是否都為 1，如果值都為 1，那么說明這個值在布隆過濾器中，如果存在一個值不為 1，說明該元素不在布隆過濾器中。

看不懂文字看下面的靈魂畫手的圖解釋???

Redis 中布隆過濾器的實現(xiàn)

看了上面的說明，必然會提出一個問題：當(dāng)插入的元素原來越多，位數(shù)組中被置為 1 的位置就越多，當(dāng)一個不在布隆過濾器中的元素，經(jīng)過哈希計算之后，得到的值在位數(shù)組中查詢，有可能這些位置也都被置為 1。這樣一個不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說一個元素不在布隆過濾器中，那么這個值就一定不在布隆過濾器中。簡單來說：

布隆過濾器說某個元素在，可能會被誤判。
布隆過濾器說某個元素不在，那么一定不在。

這個布隆過濾器的缺陷放到上面爬蟲的需求中，可能存在某些沒有訪問過的 URL 可能會被誤判為訪問過，但是如果是訪問過的 URL 一定不會被誤判為沒訪問過。

Redis 中的布隆過濾器

redis 在 4.0 的版本中加入了 module 功能，布隆過濾器可以通過 module 的形式添加到 redis 中，所以使用 redis 4.0 以上的版本可以通過加載 module 來使用 redis 中的布隆過濾器。但是這不是最簡單的方式，使用 docker 可以直接在 redis 中體驗布隆過濾器。

> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom
> docker exec -it bloomfilter redis-cli

redis 布隆過濾器主要就兩個命令：

bf.add 添加元素到布隆過濾器中：bf.add urls https://jaychen.cc。
bf.exists 判斷某個元素是否在過濾器中：bf.exists urls https://jaychen.cc。

上面說過布隆過濾器存在誤判的情況，在 redis 中有兩個值決定布隆過濾器的準(zhǔn)確率：

error_rate ：允許布隆過濾器的錯誤率，這個值越低過濾器的位數(shù)組的大小越大，占用空間也就越大。
initial_size ：布隆過濾器可以儲存的元素個數(shù)，當(dāng)實際存儲的元素個數(shù)超過這個值之后，過濾器的準(zhǔn)確率會下降。

redis 中有一個命令可以來設(shè)置這兩個值：

bf.reserve urls 0.01 100

三個參數(shù)的含義：

第一個值是過濾器的名字。
第二個值為 error_rate 的值。
第三個值為 initial_size 的值。

使用這個命令要注意一點：執(zhí)行這個命令之前過濾器的名字應(yīng)該不存在，如果執(zhí)行之前就存在會報錯：(error) ERR item exists

看完上述內(nèi)容，你們掌握Redis 中布隆過濾器的實現(xiàn)的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Redis Sentinel實現(xiàn)高可用配置
下一篇新聞：
Redis Template實現(xiàn)分布式鎖

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼