溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么從100億URL中找出相同的URL

發(fā)布時間:2022-01-15 13:58:00 來源:億速云 閱讀:134 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要介紹“怎么從100億URL中找出相同的URL”,在日常操作中,相信很多人在怎么從100億URL中找出相同的URL問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么從100億URL中找出相同的URL”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

題目描述

給定 a、b 兩個文件,各存放 50 億個 URL,每個 URL 各占 64B,內(nèi)存限制是 4G。請找出 a、b 兩個文件共同的 URL。

解答思路

每個 URL 占 64B,那么 50 億個 URL占用的空間大小約為 320GB。

5, 000, 000, 000 * 64B ≈ 5GB * 64 = 320GB

由于內(nèi)存大小只有 4G,因此,我們不可能一次性把所有 URL 加載到內(nèi)存中處理。對于這種類型的題目,一般采用分治策略 ,即:把一個文件中的 URL 按照某個特征劃分為多個小文件,使得每個小文件大小不超過 4G,這樣就可以把這個小文件讀到內(nèi)存中進行處理了。

思路如下 :

首先遍歷文件 a,對遍歷到的 URL 求 hash(URL) % 1000 ,根據(jù)計算結(jié)果把遍歷到的 URL 存儲到 a0, a1, a2, ..., a999,這樣每個大小約為 300MB。使用同樣的方法遍歷文件 b,把文件 b 中的 URL 分別存儲到文件 b0, b1, b2, ..., b999 中。

這樣處理過后,所有可能相同的 URL 都在對應的小文件中,即 a0 對應 b0, ..., a999 對應 b999,不對應的小文件不可能有相同的 URL。那么接下來,我們只需要求出這 1000 對小文件中相同的 URL 就好了。

接著遍歷 ai( i∈[0,999] ),把 URL 存儲到一個 HashSet 集合中。然后遍歷 bi 中每個 URL,看在 HashSet 集合中是否存在,若存在,說明這就是共同的 URL,可以把這個 URL 保存到一個單獨的文件中。

到此,關(guān)于“怎么從100億URL中找出相同的URL”的學習就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關(guān)知識,請繼續(xù)關(guān)注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

url
AI