您好,登錄后才能下訂單哦!
Python如何使用PhantomJS?針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。
簡(jiǎn)單使用:
from selenium import webdriver # 要想調(diào)用鍵盤按鍵操作需要引入keys包 from selenium.webdriver.common.keys import Keys # 調(diào)用環(huán)境變量指定的PhantomJS瀏覽器創(chuàng)建瀏覽器對(duì)象 device_path = r'I:\reptile_demo\phantomjs-2.1.1-windows\bin\phantomjs.exe' driver = webdriver.PhantomJS(executable_path=device_path) # 如果沒有在環(huán)境變量指定PhantomJS位置# driver = webdriver.PhantomJS(executable_path="./phantomjs")) # get方法會(huì)一直等到頁面被完全加載,然后才會(huì)繼續(xù)程序,通常測(cè)試會(huì)在這里選擇 time.sleep(2) driver.get("http://www.baidu.com/") # 獲取頁面名為 wrapper的id標(biāo)簽的文本內(nèi)容 data = driver.find_element_by_id("wrapper").text # 打印數(shù)據(jù)內(nèi)容 print(data) # 打印頁面標(biāo)題 "百度一下,你就知道 print(driver.title) # 生成當(dāng)前頁面快照并保存 driver.save_screenshot("baidu.png") # id="kw"是百度搜索輸入框,輸入字符串"街拍" driver.find_element_by_id("kw").send_keys("街拍") # id="su"是百度搜索按鈕,click() 是模擬點(diǎn)擊 driver.find_element_by_id("su").click() # 獲取新的頁面快照 driver.save_screenshot("街拍.png") # 打印網(wǎng)頁渲染后的源代碼 print(driver.page_source) # 獲取當(dāng)前頁面Cookie print(driver.get_cookies()) # ctrl+a 全選輸入框內(nèi)容 driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a') # ctrl+x 剪切輸入框內(nèi)容 driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x') # 輸入框重新輸入內(nèi)容 driver.find_element_by_id("kw").send_keys("atguigu") # 模擬Enter回車鍵 driver.find_element_by_id("su").send_keys(Keys.RETURN) # 清除輸入框內(nèi)容 driver.find_element_by_id("kw").clear() # 生成新的頁面快照 driver.save_screenshot("atguigu.png") # 獲取當(dāng)前url print(driver.current_url) # 關(guān)閉當(dāng)前頁面,如果只有一個(gè)頁面,會(huì)關(guān)閉瀏覽器# driver.close() # 關(guān)閉瀏覽器 driver.quit()
標(biāo)簽定位
find_element_by_id() find_element_by_name() find_element_by_class_name() find_element_by_tag_name() find_element_by_link_text() find_element_by_partial_link_text() find_element_by_xpath() find_element_by_css_selector()
注意:
1、find_element_by_xxx找的是第一個(gè)符合條件的標(biāo)簽,find_elements_by_xxx找的是所有符合條件的標(biāo)簽。
2、根據(jù)ID、CSS選擇器和XPath獲取,它們返回的結(jié)果完全一致。
3、另外,Selenium還提供了通用方法find_element(),它需要傳入兩個(gè)參數(shù):查找方式By和值。實(shí)際上,它就是find_element_by_id()這種方法的通用函數(shù)版本,比如find_element_by_id(id)就等價(jià)于find_element(By.ID, id),二者得到的結(jié)果完全一致。
爬取豆瓣
from selenium import webdriver from time import sleep import time if __name__ == '__main__': url = 'https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action=' # 發(fā)起請(qǐng)求前,可以讓url表示的頁面動(dòng)態(tài)加載出更多的數(shù)據(jù) path = r'I:\reptile_demo\phantomjs-2.1.1-windows\bin\phantomjs.exe' # 創(chuàng)建無界面的瀏覽器對(duì)象 bro = webdriver.PhantomJS(path) # 發(fā)起url請(qǐng)求 bro.get(url) time.sleep(3) # 截圖 bro.save_screenshot('1.png') # 執(zhí)行js代碼(讓滾動(dòng)條向下偏移n個(gè)像素(作用:動(dòng)態(tài)加載了更多的電影信息)) js = 'window.scrollTo(0,document.body.scrollHeight)' bro.execute_script(js) # 該函數(shù)可以執(zhí)行一組字符串形式的js代碼 time.sleep(2) bro.execute_script(js) # 該函數(shù)可以執(zhí)行一組字符串形式的js代碼 time.sleep(2) bro.save_screenshot('2.png') time.sleep(2) # 使用爬蟲程序爬去當(dāng)前url中的內(nèi)容 html_source = bro.page_source # 該屬性可以獲取當(dāng)前瀏覽器的當(dāng)前頁的源碼(html) with open('./source.html', 'w', encoding='utf-8') as fp: fp.write(html_source) bro.quit()
關(guān)于Python如何使用PhantomJS問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。