您好,登錄后才能下訂單哦!
什么是Python爬蟲開發(fā)
Python爬蟲開發(fā),從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。
世界上80%的爬蟲是基于Python開發(fā)的,學(xué)好爬蟲技能,可為后續(xù)的大數(shù)據(jù)分析、挖掘、機器學(xué)習(xí)等提供重要的數(shù)據(jù)源。
Python爬蟲實例參考
這是一個用Python爬蟲實現(xiàn)抓取京東店鋪信息以及下載圖片的例子,僅供參考。
信息抓取:
圖片下載的:
注意:
1、在選擇信息的時候用CSS
2、用 get_text()方法篩選標(biāo)簽中的文本信息
3、strip ,lstrip,rstrip 的用法:
Python中的strip 用于去除字符串的首尾字符;同理,lstrip 用于去除左邊的字符;rstrip 用于去除右邊的字符。
這三個函數(shù)其實都可以傳入一個參數(shù),指定要去除的首尾字符。
但是需要注意的是,傳入的是一個字符數(shù)組,編譯器去除兩端所有相應(yīng)的字符,直到?jīng)]有匹配的字符,比如:
theString依次被去除首尾在['s','a','y']數(shù)組內(nèi)的字符,直到字符在不數(shù)組內(nèi)。所以,輸出的結(jié)果為:
比較簡單吧,lstrip和rstrip原理是一樣的。
注意:當(dāng)沒有傳入?yún)?shù)時,是默認去除首尾空格和換行符的。
運行結(jié)果:
以上案例代碼部分以圖片形式展示,僅供參考。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。