溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

python3.4爬蟲(chóng)demo

發(fā)布時(shí)間:2020-10-12 10:44:59 來(lái)源:腳本之家 閱讀:148 作者:chenqiangdage 欄目:開(kāi)發(fā)技術(shù)

python 3.4 所寫(xiě)爬蟲(chóng)

僅僅是個(gè)demo,以百度圖片首頁(yè)圖片為例。能跑出圖片上的圖片;

使用 eclipse pydev 編寫(xiě):

from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys) 
#sys.setdefaultencoding('utf-8')  
html = getHtml('http://image.baidu.com/')
try:
  getImage(html)
  exit()
except Exception as e:
  print(e) 

HtmlHelper.py文件 

上面的 SpiderSimple是自定義的包名

from urllib.request import urlopen,urlretrieve
#正則庫(kù)
import re
#打開(kāi)網(wǎng)頁(yè)
def getHtml(url):
  page = urlopen(url)        
  html = page.read()
  return html
#用正則爬里面的圖片地址  
def getImage(Html):
  try:
    #reg = r'src="(.+?\.jpg)" class'
    #image = re.compile(reg)  
    image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I)     
    Html = Html.decode('utf-8')
    imaglist = re.findall(image,Html)    
    x =0    
    for imagurl in imaglist:  
      #將圖片一個(gè)個(gè)下載到項(xiàng)目所在文件夾     
      urlretrieve(imagurl, '%s.jpg' % x)
      x+=1 
  except Exception as e:
    print(e)

要注意個(gè)大問(wèn)題,python 默認(rèn)編碼的問(wèn)題。

有可能報(bào)UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),錯(cuò)誤。這個(gè)要設(shè)置python的默認(rèn)編碼為utf-8.

設(shè)置最好的方式是寫(xiě)bat文件,

echo off
set PYTHONIOENCODING=utf8
python -u %1

然后重啟電腦。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)億速云的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI