溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python爬蟲中怎樣編寫pyspider

發(fā)布時(shí)間:2020-12-01 08:54:37 來源:億速云 閱讀:117 作者:小新 欄目:編程語言

這篇文章給大家分享的是有關(guān)python爬蟲中怎樣編寫pyspider的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。

代碼:

from pyspider.libs.base_handler import *class Handler(BaseHandler):
    crawl_config = {
    }
 
    @every(minutes=24 * 60)    def on_start(self):
        self.crawl('__START_URL__', callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)    def index_page(self, response):        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)    def detail_page(self, response):        return {            "url": response.url,            "title": response.doc('title').text(),
        }

crawl_config:爬蟲的全局參數(shù)設(shè)置,例如請求頭和cookies可以在這里設(shè)置(傳入關(guān)鍵字及對應(yīng)的參數(shù)即可)

on_start(self):爬蟲開始爬取的入口

crawl:和requests有相同的功能 ,可以支持 get(默認(rèn)) 和 post,常用的參數(shù)有

data 是想要提交數(shù)據(jù)

callback 可以在執(zhí)行完 crawl后調(diào)用回調(diào)函數(shù)

method 是指定 訪問方法

files 上傳文件,{'key': ('file.name': 'content')}

headers 請求頭,類型dict

cookies 請求的 Cookies 類型 dict

timeout 請求內(nèi)容里最大等待秒數(shù).默認(rèn)值:120

connect_timeout : 指定請求時(shí)鏈接超時(shí)時(shí)間,單位秒,默認(rèn)值:20

proxy : 可以設(shè)置代理服務(wù)器,暫時(shí)只支持http代理

感謝各位的閱讀!關(guān)于python爬蟲中怎樣編寫pyspider就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI