您好,登錄后才能下訂單哦!
前言
因?yàn)樽罱獙?xiě)一個(gè)抓取sitemap和相應(yīng)的參數(shù)的小腳本,現(xiàn)有的爬蟲(chóng)無(wú)論用什么語(yǔ)言寫(xiě)的,幾乎都無(wú)法抓取參數(shù),所以我思考了一下,先做一個(gè)簡(jiǎn)單的總結(jié)。
本來(lái)以為寫(xiě)個(gè)這種sitemap的爬蟲(chóng)很簡(jiǎn)單,經(jīng)過(guò)思考之后才發(fā)現(xiàn)其中的可怕之處,最關(guān)鍵的是參數(shù)的提取,這個(gè)太麻煩了。。。這個(gè)時(shí)候才發(fā)現(xiàn)AWVS的無(wú)敵和強(qiáng)大之處。。。
如果我們要獲取網(wǎng)站的sitemap同時(shí)還要抓取對(duì)應(yīng)鏈接的參數(shù),我大概總結(jié)了url的幾個(gè)來(lái)源:
1、頁(yè)面上直接現(xiàn)有的form表單以及現(xiàn)有的href等指向的鏈接及參數(shù),這個(gè)相對(duì)比較簡(jiǎn)單,不過(guò)要考慮post和get的問(wèn)題。
2、由js生成的DOM中的form表單和href指向的鏈接
3、由js發(fā)起的訪問(wèn)請(qǐng)求,例如AJAX請(qǐng)求等
4、通過(guò)點(diǎn)擊然后調(diào)用js發(fā)送請(qǐng)求,或是點(diǎn)擊生成一個(gè)form或是生產(chǎn)一個(gè)DOM,然后再點(diǎn)擊再由js發(fā)送請(qǐng)求。例如如下代碼
<div> <input id="searchTitle" name="searchTitle" value="" type="text"> <div class="button" onclick="javascript:searchWeb();"></div> </div>
5、通過(guò)setTimeout函數(shù)延遲觸發(fā)的js的請(qǐng)求,例如setTimeout("request()", 2000);,這一類(lèi)我暫時(shí)還沒(méi)有太好的辦法解決,不過(guò)有初步的辦法,后面會(huì)說(shuō)到。
目前我大概想到這么五類(lèi),肯定還有沒(méi)考慮到的地方,并且目前實(shí)際的代碼還沒(méi)有寫(xiě)出來(lái),我先記錄一下我的想法,要是有哪位師傅有興趣請(qǐng)務(wù)必聯(lián)系我。。。。orz。。
要解決上述的5個(gè)問(wèn)題,因?yàn)槲业墓こ痰那鞍氩糠质褂胮ython寫(xiě)的,所以這里我需要用python來(lái)解決,那么最佳選擇必然是selenium和phantomjs,其實(shí)比起來(lái)我更想用原生的phantomjs來(lái)寫(xiě)。
用phantomjs的話第一個(gè)和第二個(gè)問(wèn)題不攻自破,直接正則匹配下來(lái)就行了,因?yàn)樗鼤?huì)幫我們先把頁(yè)面的js執(zhí)行了。
第三個(gè)問(wèn)題也相對(duì)比較好解決,我們通過(guò)原生phantomjs的APIonResourceRequested就能夠監(jiān)控所有從頁(yè)面發(fā)出去的請(qǐng)求。
然后再來(lái)看第四個(gè)問(wèn)題,我目前的想法應(yīng)該沒(méi)有辦法徹底解決,我們同樣可以用phantomjs向頁(yè)面的所有的dom發(fā)送一個(gè)click事件,但是這樣子的話時(shí)間是一個(gè)很大的問(wèn)題,所以初步想法向所有具有onclick事件的標(biāo)簽發(fā)送點(diǎn)擊事件
然后再來(lái)看第五個(gè)問(wèn)題,這應(yīng)該是最麻煩的一個(gè),我初步的想法還是用onResourceRequested事件,然后設(shè)置一個(gè)超時(shí)時(shí)限,讓頁(yè)面執(zhí)行個(gè)幾秒鐘,但是最后我還是放棄了這個(gè)想法,我決定忽視這個(gè)問(wèn)題,因?yàn)槿绻總€(gè)頁(yè)面都等上幾秒那時(shí)間耗費(fèi)不堆上天了。
以上就是我目前初步的一些思考,還有很多不成熟之處。
selenium與phantomjs聯(lián)動(dòng)的問(wèn)題
之前一直知道有selenium這個(gè)東西,不夠因?yàn)闆](méi)有地方需要,也沒(méi)有可以去學(xué)習(xí),不過(guò)對(duì)phantomjs可能會(huì)稍微熟悉一些。
先寫(xiě)個(gè)簡(jiǎn)單的程序
from selenium import webdriver service_args=[] service_args.append('--load-images=no') ##關(guān)閉圖片加載 service_args.append('--disk-cache=yes') ##開(kāi)啟緩存 service_args.append('--ignore-ssl-errors=true') ##忽略https錯(cuò)誤 d=webdriver.PhantomJS("phantomjs",service_args=service_args) d.get("http://xxxxxxxxxxxxxxxxxxxxx") print d.page_source d.quit()
這樣就可以發(fā)送get請(qǐng)求了。
問(wèn)題一:沒(méi)有post請(qǐng)求?
我覺(jué)得應(yīng)該是我還了解的不夠。不過(guò)翻了API,確實(shí)沒(méi)有找到,希望大家能夠指出我的錯(cuò)誤,但我真的好像沒(méi)有找到能夠發(fā)送post請(qǐng)求的地方,真是蠢爆了。。
這里我想到了兩種方法解決,先說(shuō)一種,第二種留到后面說(shuō)。
就是用requests庫(kù)遞交post請(qǐng)求,拿下來(lái)的cookie,調(diào)用add_cookie函數(shù)給它,然后讓它帶著cookie發(fā)送get請(qǐng)求就好了。
樣例如下
from selenium import webdriver import requests r=requests.session() service_args=[] service_args.append('--load-images=no') ##關(guān)閉圖片加載 service_args.append('--disk-cache=yes') ##開(kāi)啟緩存 service_args.append('--ignore-ssl-errors=true') ##忽略https錯(cuò)誤 d=webdriver.PhantomJS("phantomjs",service_args=service_args) data={ "username":"123", "password":"123", "login":"1" } result=r.post("http://127.0.0.1:8000/web/login.php",data=data) cookies=r.cookies.get_dict() for i in cookies: d.add_cookie({ 'name': i, 'value' :cookies[i], 'path':'/', 'domain':'127.0.0.1' }) d.get("http://127.0.0.1:8000/web/index.php") print d.page_source d.quit()
另外這個(gè)add_cookie函數(shù)還比較刁鉆,還要把path和domain都設(shè)置好,不然有時(shí)會(huì)報(bào)錯(cuò)。
第二個(gè)方法的話,我們知道,如果用原生PhantomJS的話,我們可以很容易遞交post請(qǐng)求,比如如下:
var webPage = require('webpage'); var page = webPage.create(); var settings = { operation: "POST", header:{}, data: "username=123&password=123&login=1" }; page.open('http://127.0.0.1:8000/web/login.php', settings, function(status) { //console.log(page.content); for(var i=0;i<page.cookies.length;i++){ console.log(page.cookies[i].name+":"+page.cookies[i].value) } });
所以我們想辦法就是直接在 Selenium中讓PhantomJS 執(zhí)行它的 API就可以了,這里不貼了,看完下一小節(jié)就知道怎么寫(xiě)了。
問(wèn)題二:在 Selenium中獲取PhantomJS 的API的執(zhí)行結(jié)果?
還好Selenium帶了個(gè)get_log函數(shù),比如我監(jiān)控'http://127.0.0.1:8000/web/index.php‘頁(yè)面向外發(fā)送的所有請(qǐng)求,如果用原生的phantomjs,很好辦,如下:
var webPage = require('webpage'); var page = webPage.create(); page.onResourceRequested = function (request) { console.log('Request ' + request.url); }; ........... ...........
所以我們直接在Selenium中調(diào)用PhantomJS 的API就好了。如下
from selenium import webdriver import requests r=requests.session() service_args=[] service_args.append('--load-images=no') ##關(guān)閉圖片加載 service_args.append('--disk-cache=yes') ##開(kāi)啟緩存 service_args.append('--ignore-ssl-errors=true') ##忽略https錯(cuò)誤 d=webdriver.PhantomJS("phantomjs",service_args=service_args) data={ "username":"123", "password":"123", "login":"1" } result=r.post("http://127.0.0.1:8000/web/login.php",data=data) cookies=r.cookies.get_dict() for i in cookies: d.add_cookie({ 'name': i, 'value' :cookies[i], 'path':'/', 'domain':'127.0.0.1' }) script = "var page=this;page.onResourceRequested = function (request){console.log(request.url);};" d.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute') d.execute('executePhantomScript', {'script': script, 'args': []}) d.get("http://127.0.0.1:8000/web/index.php") print d.page_source d.quit()
這里上述代碼確實(shí)能夠?qū)崟r(shí)執(zhí)行,但是就這樣寫(xiě)的話沒(méi)有辦法獲取到結(jié)果。
這里需要用到一個(gè)get_log函數(shù),改進(jìn)如下:
from selenium import webdriver import requests r=requests.session() service_args=[] service_args.append('--load-images=no') ##關(guān)閉圖片加載 service_args.append('--disk-cache=yes') ##開(kāi)啟緩存 service_args.append('--ignore-ssl-errors=true') ##忽略https錯(cuò)誤 d=webdriver.PhantomJS("phantomjs",service_args=service_args) data={ "username":"123", "password":"123", "login":"1" } result=r.post("http://127.0.0.1:8000/web/login.php",data=data) cookies=r.cookies.get_dict() for i in cookies: d.add_cookie({ 'name': i, 'value' :cookies[i], 'path':'/', 'domain':'127.0.0.1' }) script = "var page=this;page.onResourceRequested = function (request){page.browserLog.push(request.url);};" d.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute') d.execute('executePhantomScript', {'script': script, 'args': []}) d.get("http://127.0.0.1:8000/web/index.php") print d.page_source print d.get_log('browser') d.quit()
在js腳本中我們調(diào)用page.browserLog.push,然后在python腳本中我們get_log('browser')去獲取就可以實(shí)現(xiàn)相互溝通,當(dāng)然肯定還有別的辦法,不過(guò)我沒(méi)有找到。。。。僵硬了。。。。
后記
再說(shuō)這個(gè)抓取sitemap和請(qǐng)求參數(shù)的小腳本,想了想還是覺(jué)得非常麻煩,雖然幾個(gè)問(wèn)題都有了相應(yīng)的解決辦法,也不管好壞,加上今天稍微研究了一下python調(diào)用phantom的優(yōu)化,還是稍微有點(diǎn)信心了,但是感覺(jué)要整合到一起來(lái)還是會(huì)很麻煩,效率問(wèn)題是一個(gè),能否真正準(zhǔn)確抓取完整又是另一個(gè),慢慢來(lái)把,沒(méi)想到最初覺(jué)得不是問(wèn)題的問(wèn)題最后卻成了我最大的麻煩之一。。僵硬。。。最后還要說(shuō)的是原聲的phantomjs真的比selenium去調(diào)用舒服得多。?!,F(xiàn)在想來(lái)要是最開(kāi)始想把每個(gè)環(huán)節(jié)思考一下就好了,要是思考了大概就不會(huì)用python了,大概會(huì)用nodejs,對(duì)了,最近稍微研究了一下nodejs的一些滲透和攻擊方法,后續(xù)整理一下分享出來(lái),希望師傅們能夠幫忙指點(diǎn)指點(diǎn)。
以上這篇selenium在執(zhí)行phantomjs的API并獲取執(zhí)行結(jié)果的方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持億速云。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。