您好,登錄后才能下訂單哦!
本文小編為大家詳細(xì)介紹“node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。
工具:cheerio
cheerio 是 nodejs 特別為服務(wù)端定制的,能夠快速靈活的對(duì) JQuery 核心進(jìn)行實(shí)現(xiàn)。它工作于 DOM 模型上,且解析、操作、呈送都很高效。 更多 API 參看: github.com/cheeriojs/c…
我們以慕課網(wǎng)頁(yè)面為例,爬取每個(gè)視頻課程的標(biāo)題和課程對(duì)應(yīng) id,期望結(jié)構(gòu)如下:
titles = [{ chapterTitle: chapterTitle, id: id }]
我們用node寫一個(gè)請(qǐng)求,獲取想要爬蟲的網(wǎng)站html,這里以慕課網(wǎng)為例:
var http = require('http') var url = 'http://www.imooc.com/course/list?c=nodejs' http.get(url, function(res){ var html = '' res.on('data', function(data){ html += data }) res.on('end', function(){ var result = filterHml(html) print(result) }) }).on('error', function(){ console.log('獲取數(shù)據(jù)錯(cuò)誤!') })
我們根據(jù)需求來(lái)編寫過(guò)濾HTML的函數(shù),將過(guò)濾后的數(shù)據(jù)打印在控制臺(tái)。
function filterChapters(html) { var $ = cheerio.load(html) var chapters = $('.course-card-container')//以類名獲取節(jié)點(diǎn)元素 var titles = [] chapters.each(function (item) { var chapter = $(this) var chapterTitle = chapter.find('h4').text() var id = chapter.find('a').attr('href').split('learn/')[1] titles.push({ chapterTitle: chapterTitle, id: id }) }) return titles } function printCourseInfo(courseData){ courseData.forEach(item => { console.log('【' + item.id + '】' + item.chapterTitle + '\n') }); }
【935】Vue+Webpack打造todo應(yīng)用
【882】基于websocket的火拼俄羅斯(單??版)
【861】基于Websocket的火拼俄羅斯(基礎(chǔ))
【866】前端性能優(yōu)化-通用的緩存SDK
【773】AC2016騰訊前端技術(shù)大會(huì)
【728】創(chuàng)業(yè)公司的Nodejs工程師
【725】Roundtable前端分享專場(chǎng)
【637】進(jìn)擊Node.js基礎(chǔ)(二)
【590】阿里D2前端技術(shù)論壇——2015融合
【564】去哪兒前端沙龍分享第三期
【556】慕課網(wǎng)技術(shù)沙龍之前端專場(chǎng)
【434】去哪兒前端沙龍分享第二期
【367】Qnext前端交互沙龍
【348】進(jìn)擊Node.js基礎(chǔ)(一)
【221】D2前端技術(shù)論壇——2014綻放
【197】node建站攻略(二期)——網(wǎng)站升級(jí)
【75】node+mongodb 建站攻略(一期)
讀到這里,這篇“node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。