Python如何使用PhantomJS

發(fā)布時(shí)間：2020-09-24 13:25:54 來源：億速云閱讀：332 作者：Leah 欄目：編程語言

Python如何使用PhantomJS？針對(duì)這個(gè)問題，這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答，希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。

簡(jiǎn)單使用：

from selenium import webdriver
# 要想調(diào)用鍵盤按鍵操作需要引入keys包
from selenium.webdriver.common.keys import Keys
# 調(diào)用環(huán)境變量指定的PhantomJS瀏覽器創(chuàng)建瀏覽器對(duì)象
device_path = r'I:\reptile_demo\phantomjs-2.1.1-windows\bin\phantomjs.exe'
driver = webdriver.PhantomJS(executable_path=device_path)
# 如果沒有在環(huán)境變量指定PhantomJS位置# driver = webdriver.PhantomJS(executable_path="./phantomjs"))
# get方法會(huì)一直等到頁面被完全加載，然后才會(huì)繼續(xù)程序，通常測(cè)試會(huì)在這里選擇 time.sleep(2)
driver.get("http://www.baidu.com/")
# 獲取頁面名為 wrapper的id標(biāo)簽的文本內(nèi)容
data = driver.find_element_by_id("wrapper").text
# 打印數(shù)據(jù)內(nèi)容
print(data)
# 打印頁面標(biāo)題 "百度一下，你就知道
print(driver.title)
# 生成當(dāng)前頁面快照并保存
driver.save_screenshot("baidu.png")
# id="kw"是百度搜索輸入框，輸入字符串"街拍"
driver.find_element_by_id("kw").send_keys("街拍")
# id="su"是百度搜索按鈕，click() 是模擬點(diǎn)擊
driver.find_element_by_id("su").click()
# 獲取新的頁面快照
driver.save_screenshot("街拍.png")
# 打印網(wǎng)頁渲染后的源代碼
print(driver.page_source)
# 獲取當(dāng)前頁面Cookie
print(driver.get_cookies())
# ctrl+a 全選輸入框內(nèi)容
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
# ctrl+x 剪切輸入框內(nèi)容
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
# 輸入框重新輸入內(nèi)容
driver.find_element_by_id("kw").send_keys("atguigu")
# 模擬Enter回車鍵
driver.find_element_by_id("su").send_keys(Keys.RETURN)
# 清除輸入框內(nèi)容
driver.find_element_by_id("kw").clear()
# 生成新的頁面快照
driver.save_screenshot("atguigu.png")
# 獲取當(dāng)前url
print(driver.current_url)
# 關(guān)閉當(dāng)前頁面，如果只有一個(gè)頁面，會(huì)關(guān)閉瀏覽器# driver.close()
# 關(guān)閉瀏覽器
driver.quit()

標(biāo)簽定位

find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()

注意：

1、find_element_by_xxx找的是第一個(gè)符合條件的標(biāo)簽，find_elements_by_xxx找的是所有符合條件的標(biāo)簽。

2、根據(jù)ID、CSS選擇器和XPath獲取，它們返回的結(jié)果完全一致。

3、另外，Selenium還提供了通用方法find_element()，它需要傳入兩個(gè)參數(shù)：查找方式By和值。實(shí)際上，它就是find_element_by_id()這種方法的通用函數(shù)版本，比如find_element_by_id(id)就等價(jià)于find_element(By.ID, id)，二者得到的結(jié)果完全一致。

爬取豆瓣

from selenium import webdriver
from time import sleep
import time
if __name__ == '__main__':
    url = 'https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action='
    # 發(fā)起請(qǐng)求前，可以讓url表示的頁面動(dòng)態(tài)加載出更多的數(shù)據(jù)
    path = r'I:\reptile_demo\phantomjs-2.1.1-windows\bin\phantomjs.exe'
    # 創(chuàng)建無界面的瀏覽器對(duì)象
    bro = webdriver.PhantomJS(path)
    # 發(fā)起url請(qǐng)求
    bro.get(url)
    time.sleep(3)
    # 截圖
    bro.save_screenshot('1.png')
    # 執(zhí)行js代碼（讓滾動(dòng)條向下偏移n個(gè)像素（作用：動(dòng)態(tài)加載了更多的電影信息））
    js = 'window.scrollTo(0,document.body.scrollHeight)'
    bro.execute_script(js)  # 該函數(shù)可以執(zhí)行一組字符串形式的js代碼
    time.sleep(2)
    bro.execute_script(js)  # 該函數(shù)可以執(zhí)行一組字符串形式的js代碼
    time.sleep(2)
    bro.save_screenshot('2.png')
    time.sleep(2)
    # 使用爬蟲程序爬去當(dāng)前url中的內(nèi)容
    html_source = bro.page_source # 該屬性可以獲取當(dāng)前瀏覽器的當(dāng)前頁的源碼（html）
    with open('./source.html', 'w', encoding='utf-8') as fp:
        fp.write(html_source)
    bro.quit()

關(guān)于Python如何使用PhantomJS問題的解答就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

向AI問一下細(xì)節(jié)

Python如何使用PhantomJS

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽