您好,登錄后才能下訂單哦!
小編給大家分享一下怎么用scrapy過濾python爬蟲中的多余內(nèi)容,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
在分析之前,先看一下scrapy的去重策略:
scrapy通過request_fingerprint函數(shù),對Request對象生成指紋,看注釋:
# 該函數(shù)在scrapy/utils/request.py文件中 def request_fingerprint(request, include_headers=None): if include_headers: include_headers = tuple(to_bytes(h.lower()) for h in sorted(include_headers)) cache = _fingerprint_cache.setdefault(request, {}) if include_headers not in cache: fp = hashlib.sha1() """計算指紋時,請求方法(如GET、POST)被計算在內(nèi)""" fp.update(to_bytes(request.method)) """下面這句有意思,canonicalize_url()將url規(guī)范化,意味著 http://www.example.com/query?id=111&cat=222 http://www.example.com/query?cat=222&id=111 這樣參數(shù)位置變化,但參數(shù)值不變的網(wǎng)址,表示的仍是同一個網(wǎng)址,符合現(xiàn)實邏輯。 """ fp.update(to_bytes(canonicalize_url(request.url))) """request.body的屬性是字符串: 一般GET方法的body為空字符串,不考慮; 而POST方法要上傳一個字典data(類型是dict), 要經(jīng)過urllib.parse.urlencode()函數(shù)轉(zhuǎn)換后才能變成request.body """ fp.update(request.body or b'') if include_headers: for hdr in include_headers: if hdr in request.headers: fp.update(hdr) for v in request.headers.getlist(hdr): fp.update(v) cache[include_headers] = fp.hexdigest() return cache[include_headers] """我們甚至可以根據(jù)需求將request.meta的內(nèi)容作為指紋計算的一部分"""
scrapy生成的唯一指紋,存在內(nèi)存的一個集合里,即set。如果下一次請求產(chǎn)生的指紋在這個set里面,請求被判定為重復(fù),這次請求就被忽略,也就是所謂的去重了。從上面可以可出,scrapy認為,如果url/POST data/method都一致,這個請求就是重復(fù)的,這適合絕大多數(shù)情況。
需要提一下:上述的處理方式,意味著想要變更request的指紋就要改變request,即是在downloaderMiddleware的process_request方法中變更。
看完了這篇文章,相信你對怎么用scrapy過濾python爬蟲中的多余內(nèi)容有了一定的了解,想了解更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。