溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Python怎么使用selenium + headless chrome獲取網(wǎng)頁(yè)內(nèi)容

發(fā)布時(shí)間:2021-03-30 09:38:26 來(lái)源:億速云 閱讀:282 作者:小新 欄目:開(kāi)發(fā)技術(shù)

這篇文章主要介紹了Python怎么使用selenium + headless chrome獲取網(wǎng)頁(yè)內(nèi)容,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

使用python寫(xiě)爬蟲(chóng)時(shí),優(yōu)選selenium,由于PhantomJS因內(nèi)部原因已經(jīng)停止更新,最新版的selenium已經(jīng)使用headless chrome替換掉了PhantomJS,所以建議將selenium更新到最新版,使用selenium + headless chrome

準(zhǔn)備工作:

安裝chrome、chrome driver、selenium

一、安裝chrome

配置yum下載源,在目錄/etc/yum.repos.d/下新建文件google-chrome.repo

> cd /ect/yum.repos.d/
> vim google-chrome.repo

編輯google-chrome.repo,內(nèi)容如下,保存退出

[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

安裝google chrome瀏覽器:

> yum -y install google-chrome-stable

PS: Google官方源可能在中國(guó)無(wú)法使用,導(dǎo)致安裝失敗或者在國(guó)內(nèi)無(wú)法更新,可以添加以下參數(shù)來(lái)安裝:

> yum -y install google-chrome-stable --nogpgcheck

這樣,google chrome即可安裝成功。

二、安裝chrome driver

查看上述安裝的chrome版本,根據(jù)版本選擇對(duì)應(yīng)的chrome driver下載,下載之后放到/usr/local/bin目錄

三、安裝selenium

> pip install selenium

上述準(zhǔn)備工作完成后,就可以開(kāi)始寫(xiě)代碼了

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options


options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('lang=zh_CN.UTF-8')

# 在linux上需要添加一下兩個(gè)參數(shù)
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

browser = Chrome(chrome_options=options)
browser.set_page_load_timeout(30)
browser.set_script_timeout(30)
browser.get(url)

# 獲取返回內(nèi)容
print browser.page_source

# 查找元素
print browser.find_element_by_tag_name('pre').text

備注:如果訪(fǎng)問(wèn)一些詳情頁(yè)有cookie驗(yàn)證,可以先訪(fǎng)問(wèn)主頁(yè),然后再訪(fǎng)問(wèn)詳情頁(yè),webdriver會(huì)自動(dòng)攜帶cookie

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Python怎么使用selenium + headless chrome獲取網(wǎng)頁(yè)內(nèi)容”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI