溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

python爬動(dòng)態(tài)網(wǎng)站的方法

發(fā)布時(shí)間:2020-07-31 11:45:58 來(lái)源:億速云 閱讀:173 作者:清晨 欄目:編程語(yǔ)言

小編給大家分享一下python爬動(dòng)態(tài)網(wǎng)站的方法,相信大部分人都還不怎么了解,因此分享這邊文章給大家學(xué)習(xí),希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去學(xué)習(xí)方法吧!

python有許多庫(kù)可以讓我們很方便地編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng),爬取某些頁(yè)面,獲得有價(jià)值的信息!但許多時(shí)候,爬蟲(chóng)取到的頁(yè)面僅僅是一個(gè)靜態(tài)的頁(yè)面,即網(wǎng)頁(yè) 的源代碼,就像在瀏覽器上的“查看網(wǎng)頁(yè)源代碼”一樣。一些動(dòng)態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫(kù)動(dòng)態(tài)抓取頁(yè)面

js腳本是通過(guò)瀏覽器來(lái)執(zhí)行并返回信息的,所以,抓取js執(zhí)行后的頁(yè)面,一個(gè)最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個(gè)開(kāi)源的瀏覽器引擎,python提供了許多庫(kù)可以調(diào)用這個(gè)引擎,dryscrape便是其中之一,它調(diào)用webkit引擎來(lái)處理包含js等的網(wǎng)頁(yè)!

import dryscrape
# 使用dryscrape庫(kù) 動(dòng)態(tài)抓取頁(yè)面
def get_url_dynamic(url):
    session_req=dryscrape.Session()
    session_req.visit(url) #請(qǐng)求頁(yè)面
    response=session_req.body() #網(wǎng)頁(yè)的文本
    #print(response)
    return response
get_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對(duì)于其余包含js的網(wǎng)頁(yè)也是適用的!雖然可以滿足抓取動(dòng)態(tài)頁(yè)面的要求,但缺點(diǎn)還是很明顯的:慢!太慢了,其實(shí)想一想也合理,python調(diào)用 webkit請(qǐng)求頁(yè)面,而且等頁(yè)面加載完,載入js文件,讓js執(zhí)行,將執(zhí)行后的頁(yè)面返回,慢一點(diǎn)也是應(yīng)該的!除外還有很多庫(kù)可以調(diào)用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫(xiě)個(gè)瀏覽器),pyjamas等等,聽(tīng)說(shuō)它們也可以實(shí)現(xiàn)相同的功能!

1.2 selenium web測(cè)試框架

selenium是一個(gè)web測(cè)試框架,它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁(yè)請(qǐng)求,所以,它同樣可以實(shí)現(xiàn)抓取頁(yè)面的要求。

# 使用 selenium webdriver 可行,但會(huì)實(shí)時(shí)打開(kāi)瀏覽器窗口

def get_url_dynamic2(url):
    driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的
    driver.get(url) #請(qǐng)求頁(yè)面,會(huì)打開(kāi)一個(gè)瀏覽器窗口
    html_text=driver.page_source
    driver.quit()
    #print html_text
    return html_text
get_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時(shí)的解決方案!與selenium類似的框架還有一個(gè)windmill,感覺(jué)稍復(fù)雜一些,就不再贅述!

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:

1. selenium 3.x開(kāi)始,webdriver/firefox/webdriver.py的__init__中,executable_path="geckodriver";而2.x是executable_path="wires"

2. firefox 47以上版本,需要下載第三方driver,即geckodriver

還需要一些特殊操作:

1. 下載 geckodriverckod 地址: 

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:

sudo mv ~/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運(yùn)行報(bào)錯(cuò):

driver = webdriver.chrome()
TypeError: 'module' object is not callable

解決方案:瀏覽器的名稱需要大寫(xiě)Chrome和Firefox,Ie

2. 通過(guò)

content = driver.find_element_by_class_name('content')

來(lái)定位元素時(shí),該方法返回的是FirefoxWebElement,想要獲取包含的值時(shí),可以通過(guò)

value = content.text

以上是python爬動(dòng)態(tài)網(wǎng)站的方法的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI