您好,登錄后才能下訂單哦!
本篇文章為大家展示了怎么在Node.JS中利用PhantomJs對網(wǎng)頁進(jìn)行抓取,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。
前言
當(dāng)想用 nodejs 抓取一些網(wǎng)頁 , 我第一反應(yīng)想到的就是使用 http 模塊 , 比如抓取百度首頁:
var http = require('http'); var req = http.request('http://www.baidu.com/', function (res) { res.setEncoding('utf8'); res.on('data', function (chunk) { //響應(yīng)內(nèi)容 console.log(chunk) }); }); req.end(function () { // console.log('連接關(guān)閉'); });
但是 , 這僅限于簡單地抓取 html , 有很大的局限性。
假如你想要的內(nèi)容不在 html 里 , 而是 js 動態(tài)生成的 , 那 http 模塊就不能滿足你的需求了 ;
假如網(wǎng)頁使 gbk 編碼的 , 上述方法也不太好用了。
假如是 https 上述方法也要改一改了。
我渴望一個更強(qiáng)大 , 但使用起來也不麻煩的工具。
PhantomJs
用 PhantomJs 就可以解決上述問題。
PhantomJs 就是一個沒有界面的瀏覽器。
安裝
使用 cnpm 安裝 PhantomJS 即可:
cnpm install phantomjs --save-dev
這里我沒有選擇全局安裝 , 因為全局安裝的話 , 別人使用我的源碼的時候 , 不知道還有這么一個依賴 , 項目就跑不起來了。
如果你也選擇局部安裝 , 那么你需要在 package.json 里的 scripts 中加入一段 :
"phantomjs":"node_modules/.bin/phantomjs"
等下會用到這個的 , 到這里 , 安裝算完成了。
寫代碼
我們新建一個文件 , 名字隨意 , 這里我新建一個 main.js :
var webpage = require('webpage'); var page = webpage.create(); page.open('http://www.baidu.com/', function (status) { var data; if (status === 'fail') { console.log('open page fail!'); } else { console.log(page.content);//打印出HTML內(nèi)容 } page.close();//關(guān)閉網(wǎng)頁 phantom.exit();//退出phantomjs命令行 });
這里有個 webpage 模塊 , 我們剛才明明沒有這個模塊 , 為什么能引用這個模塊 ???
當(dāng)然不能引用 , 假如我們使用 node main.js
來跑這段代碼 , 是跑不起來的 , 應(yīng)該這樣運行這段代碼 :
npm run phantomjs main.js
這里的 npm run phantomjs
對應(yīng)的就是前面我們在 package.json 里加入的那段命令 , 很方便吧 , 幾乎和 http 模塊一樣方便。
page.content 就是 html 代碼了 , 這個 page 對象還有很多的屬性 , 功能更強(qiáng)大。
到這里 , 你就已經(jīng)算入門了 , 想知道更多可以去 phantomjs 官網(wǎng)看看文檔了。
上述內(nèi)容就是怎么在Node.JS中利用PhantomJs對網(wǎng)頁進(jìn)行抓取,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。