溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

什么是scrapy框架

發(fā)布時間:2020-09-24 11:37:08 來源:億速云 閱讀:129 作者:Leah 欄目:編程語言

這篇文章將為大家詳細講解有關(guān)什么是scrapy框架,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

一、安裝scrapy框架

pip install scrapy

二、創(chuàng)建一個scrapy項目

安裝完成后,python會自動將 scrapy命令添加到環(huán)境變量中去,這時我們就可以使用 scrapy命令來創(chuàng)建我們的第一個 scrapy項目了。

打開命令行,輸入如下命令

scrapy startproject yourproject

這里的 startproject 命令將會在當(dāng)前目錄下創(chuàng)建一個 scrapy項目,后面跟著的參數(shù)是需要創(chuàng)建的項目的名稱。

比如這里我們會創(chuàng)建一個名為 yourproject 的項目,項目結(jié)構(gòu)如下:

yourproject/
    scrapy.cfg
    yourproject/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

這些文件分別是:

scrapy.cfg: 項目的配置文件

yourproject/: 該項目的python模塊。該項目的所有代碼都在這個目錄下

yourproject/items.py: 項目中的item文件,我們在這個文件里定義要爬取的數(shù)據(jù),有點類似于 Django的 model。

yourproject/pipelines.py:項目中的pipelines文件(我把這個稱為通道文件,意思就是數(shù)據(jù)處理的通道),對爬取到的數(shù)據(jù)進行處理(如:儲存)

yourproject/settings.py: 項目的設(shè)置文件,設(shè)置全局變量的值、通道的開啟和關(guān)閉以及多個通道和爬蟲的執(zhí)行優(yōu)先級

yourproject/spiders/: 爬蟲的主要邏輯都在這個文件夾里,包括頁面請求、數(shù)據(jù)提取、反爬措施等。

關(guān)于什么是scrapy框架就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI