怎么用scrapy過濾python爬蟲中的多余內(nèi)容

發(fā)布時間：2020-11-24 09:41:28 來源：億速云閱讀：451 作者：小新欄目：編程語言

小編給大家分享一下怎么用scrapy過濾python爬蟲中的多余內(nèi)容，希望大家閱讀完這篇文章后大所收獲，下面讓我們一起去探討吧！

在分析之前，先看一下scrapy的去重策略：

scrapy通過request_fingerprint函數(shù)，對Request對象生成指紋，看注釋：

# 該函數(shù)在scrapy/utils/request.py文件中
def request_fingerprint(request, include_headers=None):
    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    if include_headers not in cache:
        fp = hashlib.sha1()
        """計算指紋時，請求方法(如GET、POST)被計算在內(nèi)"""
        fp.update(to_bytes(request.method))
 
        """下面這句有意思，canonicalize_url()將url規(guī)范化，意味著
          http://www.example.com/query?id=111&cat=222
          http://www.example.com/query?cat=222&id=111
        這樣參數(shù)位置變化，但參數(shù)值不變的網(wǎng)址，表示的仍是同一個網(wǎng)址，符合現(xiàn)實邏輯。
         """
        fp.update(to_bytes(canonicalize_url(request.url)))
 
        """request.body的屬性是字符串：
        一般GET方法的body為空字符串，不考慮；
        而POST方法要上傳一個字典data（類型是dict），
        要經(jīng)過urllib.parse.urlencode()函數(shù)轉(zhuǎn)換后才能變成request.body
       """
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[include_headers] = fp.hexdigest()
    return cache[include_headers]
"""我們甚至可以根據(jù)需求將request.meta的內(nèi)容作為指紋計算的一部分"""

scrapy生成的唯一指紋，存在內(nèi)存的一個集合里，即set。如果下一次請求產(chǎn)生的指紋在這個set里面，請求被判定為重復(fù)，這次請求就被忽略，也就是所謂的去重了。從上面可以可出，scrapy認為，如果url/POST data/method都一致，這個請求就是重復(fù)的，這適合絕大多數(shù)情況。

需要提一下：上述的處理方式，意味著想要變更request的指紋就要改變request，即是在downloaderMiddleware的process_request方法中變更。

看完了這篇文章，相信你對怎么用scrapy過濾python爬蟲中的多余內(nèi)容有了一定的了解，想了解更多相關(guān)知識，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細節(jié)

怎么用scrapy過濾python爬蟲中的多余內(nèi)容

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽