溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

發(fā)布時間:2021-09-15 17:54:39 來源:億速云 閱讀:200 作者:小新 欄目:開發(fā)技術(shù)

這篇文章主要介紹了怎么利用Scrapy爬蟲框架抓取所有文章列表的URL,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

/具體實現(xiàn)/

1、首先URL不再是某一篇具體文章的URL了,而是所有文章列表的URL,如下圖所示,將鏈接放到start_urls里邊,如下圖所示。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

2、接下來我們將需要更改parse()函數(shù),在這個函數(shù)中我們需要實現(xiàn)兩件事情。

其一是獲取某一頁面所有文章的URL并對其進行解析,獲取每一篇文章里的具體網(wǎng)頁內(nèi)容,其二是獲取下一個網(wǎng)頁的URL并交給Scrapy進行下載,下載完成之后再交給parse()函數(shù)。

有了之前的Xpath和CSS選擇器基礎(chǔ)知識之后,獲取網(wǎng)頁鏈接URL就變得相對簡單了。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

3、分析網(wǎng)頁結(jié)構(gòu),使用網(wǎng)頁交互工具,我們可以很快的發(fā)現(xiàn)每一個網(wǎng)頁有20篇文章,即20個URL,而且文章列表都存在于id="archive"這個標簽下面,之后像剝洋蔥一樣去獲取我們想要的URL鏈接。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

4、點開下拉三角,不難發(fā)現(xiàn)文章詳情頁的鏈接藏的不深,如下圖圈圈中所示。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

5、根據(jù)標簽我們按圖索驥,加上選擇器利器,獲取URL猶如探囊取物。在cmd中輸入下圖命令,以進入shell調(diào)試窗口,事半功倍。再次強調(diào),這個URL是所有文章的網(wǎng)址,而不是某一篇文章的URL,不然后面你調(diào)試半天都不會有結(jié)果的。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

6、根據(jù)第四步的網(wǎng)頁結(jié)構(gòu)分析,我們在shell中寫入CSS表達式,并進行輸出,如下圖所示。其中a::attr(href)的用法很巧妙,也是個提取標簽信息的小技巧,建議小伙伴們在提取網(wǎng)頁信息的時候可以經(jīng)常使用,十分方便。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

感謝你能夠認真閱讀完這篇文章,希望小編分享的“怎么利用Scrapy爬蟲框架抓取所有文章列表的URL”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI