溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

發(fā)布時間：2021-09-15 17:54:39 來源：億速云閱讀：200 作者：小新欄目：開發(fā)技術(shù)

這篇文章主要介紹了怎么利用Scrapy爬蟲框架抓取所有文章列表的URL，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

/具體實現(xiàn)/

1、首先URL不再是某一篇具體文章的URL了，而是所有文章列表的URL，如下圖所示，將鏈接放到start_urls里邊，如下圖所示。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

2、接下來我們將需要更改parse()函數(shù)，在這個函數(shù)中我們需要實現(xiàn)兩件事情。

其一是獲取某一頁面所有文章的URL并對其進行解析，獲取每一篇文章里的具體網(wǎng)頁內(nèi)容，其二是獲取下一個網(wǎng)頁的URL并交給Scrapy進行下載，下載完成之后再交給parse()函數(shù)。

有了之前的Xpath和CSS選擇器基礎(chǔ)知識之后，獲取網(wǎng)頁鏈接URL就變得相對簡單了。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

3、分析網(wǎng)頁結(jié)構(gòu)，使用網(wǎng)頁交互工具，我們可以很快的發(fā)現(xiàn)每一個網(wǎng)頁有20篇文章，即20個URL，而且文章列表都存在于id="archive"這個標簽下面，之后像剝洋蔥一樣去獲取我們想要的URL鏈接。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

4、點開下拉三角，不難發(fā)現(xiàn)文章詳情頁的鏈接藏的不深，如下圖圈圈中所示。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

5、根據(jù)標簽我們按圖索驥，加上選擇器利器，獲取URL猶如探囊取物。在cmd中輸入下圖命令，以進入shell調(diào)試窗口，事半功倍。再次強調(diào)，這個URL是所有文章的網(wǎng)址，而不是某一篇文章的URL，不然后面你調(diào)試半天都不會有結(jié)果的。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

6、根據(jù)第四步的網(wǎng)頁結(jié)構(gòu)分析，我們在shell中寫入CSS表達式，并進行輸出，如下圖所示。其中a::attr(href)的用法很巧妙，也是個提取標簽信息的小技巧，建議小伙伴們在提取網(wǎng)頁信息的時候可以經(jīng)常使用，十分方便。

怎么利用Scrapy爬蟲框架抓取所有文章列表的URL

感謝你能夠認真閱讀完這篇文章，希望小編分享的“怎么利用Scrapy爬蟲框架抓取所有文章列表的URL”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關(guān)注億速云行業(yè)資訊頻道，更多相關(guān)知識等著你來學(xué)習(xí)!

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Ajax中servlet后臺傳遞數(shù)據(jù)的用法有哪些
下一篇新聞：
如何利用mshta調(diào)用運行js或vbs

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<var id="66616"><thead id="66616"></thead></var>

<td id="66616"></td>

<label id="66616"><table id="66616"></table></label>

<var id="66616"></var>