Python爬蟲技術(shù)干貨，教你如何實現(xiàn)抓取京東店鋪信息及下載圖片

發(fā)布時間：2020-08-04 10:18:43 來源：網(wǎng)絡(luò) 閱讀：731 作者：小十iOS開發(fā) 欄目：編程語言

什么是Python爬蟲開發(fā)

Python爬蟲開發(fā),從網(wǎng)站某一個頁面(通常是首頁)開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網(wǎng)頁，這樣一直循環(huán)下去，直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。
Python爬蟲技術(shù)干貨，教你如何實現(xiàn)抓取京東店鋪信息及下載圖片
世界上80%的爬蟲是基于Python開發(fā)的，學(xué)好爬蟲技能，可為后續(xù)的大數(shù)據(jù)分析、挖掘、機器學(xué)習(xí)等提供重要的數(shù)據(jù)源。

Python爬蟲實例參考

這是一個用Python爬蟲實現(xiàn)抓取京東店鋪信息以及下載圖片的例子，僅供參考。

信息抓取：

Python爬蟲技術(shù)干貨，教你如何實現(xiàn)抓取京東店鋪信息及下載圖片
圖片下載的：

注意：

1、在選擇信息的時候用CSS

2、用 get_text（）方法篩選標(biāo)簽中的文本信息

3、strip ，lstrip，rstrip 的用法：

Python中的strip 用于去除字符串的首尾字符；同理，lstrip 用于去除左邊的字符；rstrip 用于去除右邊的字符。

這三個函數(shù)其實都可以傳入一個參數(shù)，指定要去除的首尾字符。

但是需要注意的是，傳入的是一個字符數(shù)組，編譯器去除兩端所有相應(yīng)的字符，直到?jīng)]有匹配的字符，比如：
Python爬蟲技術(shù)干貨，教你如何實現(xiàn)抓取京東店鋪信息及下載圖片
theString依次被去除首尾在['s'，'a'，'y']數(shù)組內(nèi)的字符，直到字符在不數(shù)組內(nèi)。所以，輸出的結(jié)果為：

比較簡單吧，lstrip和rstrip原理是一樣的。