<object id="bxvkf"><small id="bxvkf"></small></object>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

python如何爬取動(dòng)態(tài)網(wǎng)站

發(fā)布時(shí)間：2020-09-28 18:03:05 來源：腳本之家閱讀：169 作者：愛喝馬黛茶的安東尼欄目：開發(fā)技術(shù)

python有許多庫可以讓我們很方便地編寫網(wǎng)絡(luò)爬蟲，爬取某些頁面，獲得有價(jià)值的信息！但許多時(shí)候，爬蟲取到的頁面僅僅是一個(gè)靜態(tài)的頁面，即網(wǎng)頁的源代碼，就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動(dòng)態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息，是抓取不到的，這里暫且先給出這么一些方案，可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動(dòng)態(tài)抓取頁面

js腳本是通過瀏覽器來執(zhí)行并返回信息的，所以，抓取js執(zhí)行后的頁面，一個(gè)最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個(gè)開源的瀏覽器引擎，python提供了許多庫可以調(diào)用這個(gè)引擎，dryscrape便是其中之一，它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁！

import dryscrape
# 使用dryscrape庫 動(dòng)態(tài)抓取頁面
def get_url_dynamic(url):
    session_req=dryscrape.Session()
    session_req.visit(url) #請求頁面
    response=session_req.body() #網(wǎng)頁的文本
    #print(response)
    return response
get_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網(wǎng)頁也是適用的！雖然可以滿足抓取動(dòng)態(tài)頁面的要求，但缺點(diǎn)還是很明顯的：慢！太慢了，其實(shí)想一想也合理，python調(diào)用 webkit請求頁面，而且等頁面加載完，載入js文件，讓js執(zhí)行，將執(zhí)行后的頁面返回，慢一點(diǎn)也是應(yīng)該的！除外還有很多庫可以調(diào)用 webkit：PythonWebkit，PyWebKitGit，Pygt（可以用它寫個(gè)瀏覽器），pyjamas等等，聽說它們也可以實(shí)現(xiàn)相同的功能！

1.2 selenium web測試框架

selenium是一個(gè)web測試框架，它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請求，所以，它同樣可以實(shí)現(xiàn)抓取頁面的要求。

# 使用 selenium webdriver 可行，但會(huì)實(shí)時(shí)打開瀏覽器窗口

def get_url_dynamic2(url):
    driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器，Chrom 甚至 Ie 也可以的
    driver.get(url) #請求頁面，會(huì)打開一個(gè)瀏覽器窗口
    html_text=driver.page_source
    driver.quit()
    #print html_text
    return html_text
get_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時(shí)的解決方案！與selenium類似的框架還有一個(gè)windmill，感覺稍復(fù)雜一些，就不再贅述！

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因：

1. selenium 3.x開始，webdriver/firefox/webdriver.py的__init__中，executable_path="geckodriver"；而2.x是executable_path="wires"

2. firefox 47以上版本，需要下載第三方driver，即geckodriver

還需要一些特殊操作：

1. 下載 geckodriverckod 地址：

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可：

sudo mv ～/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運(yùn)行報(bào)錯(cuò)：

driver = webdriver.chrome()
TypeError: 'module' object is not callable

解決方案：瀏覽器的名稱需要大寫Chrome和Firefox，Ie

2. 通過

content = driver.find_element_by_class_name('content')

來定位元素時(shí)，該方法返回的是FirefoxWebElement，想要獲取包含的值時(shí)，可以通過

value = content.text

到此這篇關(guān)于python如何爬取動(dòng)態(tài)網(wǎng)站的文章就介紹到這了,更多相關(guān)python怎么爬動(dòng)態(tài)網(wǎng)站內(nèi)容請搜索億速云以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持億速云！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
java實(shí)現(xiàn)遞歸菜單樹
下一篇新聞：
MySQL中執(zhí)行計(jì)劃explain命令示例詳解

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<small id="osqz1"></small>

<td id="osqz1"></td>