溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

發(fā)布時(shí)間:2022-01-13 15:11:24 來源:億速云 閱讀:194 作者:小新 欄目:大數(shù)據(jù)

小編給大家分享一下如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

1 確定爬取目標(biāo)

任何網(wǎng)站皆可爬取,就看你要不要爬取而已。本次選取的爬取目標(biāo)是當(dāng)當(dāng)網(wǎng),爬取內(nèi)容是 以 Python 為關(guān)鍵字搜索出來的頁面中所有書籍的信息。具體如下圖所示:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

本次爬取結(jié)果有三項(xiàng):

  • 圖書的封面圖片

  • 圖書的書名

  • 圖書的鏈接頁面
    最后把這三項(xiàng)內(nèi)容保存到 csv 文件中。

2 爬取過程

總所周知,每個(gè)站點(diǎn)的頁面 DOM 樹是不一樣的。所以我們需要先對(duì)爬取頁面進(jìn)行分析,再確定自己要獲取的內(nèi)容,再定義程序爬取內(nèi)容的規(guī)則。

2.1 確定 URL 地址

我們可以通過利用瀏覽器來確定URL 地址,為 urllib 發(fā)起請(qǐng)求提供入口地址。接下來,我們就一步步來確定請(qǐng)求地址。
搜索結(jié)果頁面為 1 時(shí),URL 地址如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

搜索結(jié)果頁面為 3 時(shí),URL 地址如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

搜索結(jié)果頁面為 21 時(shí),即最后一頁,URL 地址如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

從上面的圖片中,我們發(fā)現(xiàn) URL 地址的差異就在于 page_index 的值,所以 URL 地址最終為 http://search.dangdang.com/?key=python&act=input&show=big&page_index=。而 page_index  的值,我們可以通過循環(huán)依次在地址后面添加。因此, urllib 請(qǐng)求代碼可以這樣寫:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

2.2 確定爬取節(jié)點(diǎn)

有了 URL 地址,就能使用 urllib 獲取到頁面的 html 內(nèi)容。到了這步,我們就需要找到爬取的節(jié)點(diǎn)的規(guī)則,以便于 BeautifulSoup 地解析。為了搞定這個(gè)問題,就要祭出大招 —— Chrome 瀏覽器的開發(fā)者功能(按下 F12 鍵就能啟動(dòng))。我們按下 F12 鍵盤,依次對(duì)每本書進(jìn)行元素檢查(在頁面使用鼠標(biāo)右鍵,點(diǎn)擊“檢查”即可),具體結(jié)果如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

從上圖可以得知解析規(guī)則:每本書的節(jié)點(diǎn)是一個(gè) a 標(biāo)簽,a 標(biāo)簽具有 title,href,子標(biāo)簽 img 的 src 三個(gè)屬性,這三者分別對(duì)應(yīng)書名、書的鏈接頁面、書的封圖??吹竭@里也需你不會(huì)小激動(dòng),感嘆這不就是我們要感興趣的內(nèi)容嗎?得到解析規(guī)則,編寫B(tài)eautifulSoup 解析代碼就有了思路,具體代碼如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍運(yùn)行結(jié)果如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍這證明剛才制定規(guī)則是正確爬取我們所需的內(nèi)容。

2.3 保存爬取信息

我寫爬蟲程序有個(gè)習(xí)慣,就是每次都會(huì)爬取內(nèi)容持久化到文件中。這樣方便以后查看使用。如果爬取數(shù)據(jù)量比較大,我們可以用其做數(shù)據(jù)分析。我這里為了方便,就將數(shù)據(jù)保存到 csv 文件中。用 Python 將數(shù)據(jù)寫到文件中,我們經(jīng)常中文亂碼問題所煩惱。如果單純使用 csv 庫,可能擺脫不了這煩惱。所以我們將 csv 和 codecs 結(jié)合一起使用。在寫數(shù)據(jù)到 csv 文件的時(shí)候,我們可以通過指定文件編碼。這樣中文亂碼問題就迎刃而解。具體代碼如下:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍

看到這里,你可能會(huì)問為什么不把編碼指定為 gb2312 呢,這樣用 ecxel 打開就不會(huì)亂碼了?原因是當(dāng)書名全部為英文單詞時(shí),使用 gb2312 編碼,writer.writerow()會(huì)出現(xiàn)編碼錯(cuò)誤的問題。

如果你要用 excel 打開 PythonBook.csv文件, 你則需多執(zhí)行下面幾步:

  • 1) 打開 Excel

  • 2) 執(zhí)行“數(shù)據(jù)”->“自文本”

  • 3) 選擇 CSV 文件,出現(xiàn)文本導(dǎo)入向?qū)?/p>

  • 4) 選擇“分隔符號(hào)”,下一步

  • 5) 勾選“逗號(hào)”,去掉“ Tab 鍵”,下一步,完成

  • 6)在“導(dǎo)入數(shù)據(jù)”對(duì)話框里,直接點(diǎn)確定

3 爬取結(jié)果

最后,我們將上面代碼整合起來即可。這里就不把代碼貼出來了,具體閱讀原文即可查看源代碼。我就把爬取結(jié)果截下圖:

如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍以上是“如何使用python爬取當(dāng)當(dāng)網(wǎng)所有Python書籍”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI