溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲

發(fā)布時(shí)間:2023-04-26 11:47:47 來(lái)源:億速云 閱讀:92 作者:iii 欄目:開發(fā)技術(shù)

本文小編為大家詳細(xì)介紹“node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。

    node.js實(shí)現(xiàn)簡(jiǎn)單爬蟲

    工具:cheerio

    cheerio 是 nodejs 特別為服務(wù)端定制的,能夠快速靈活的對(duì) JQuery 核心進(jìn)行實(shí)現(xiàn)。它工作于 DOM 模型上,且解析、操作、呈送都很高效。 更多 API 參看: github.com/cheeriojs/c…

    我們以慕課網(wǎng)頁(yè)面為例,爬取每個(gè)視頻課程的標(biāo)題和課程對(duì)應(yīng) id,期望結(jié)構(gòu)如下:

    titles = [{
      chapterTitle: chapterTitle,
      id: id
    }]

    第一步

    我們用node寫一個(gè)請(qǐng)求,獲取想要爬蟲的網(wǎng)站html,這里以慕課網(wǎng)為例:

    var http = require('http')
    var url = 'http://www.imooc.com/course/list?c=nodejs'
    http.get(url, function(res){
      var html = ''
      res.on('data', function(data){
        html += data
      })
      res.on('end', function(){
        var result = filterHml(html)
        print(result)
      })
    }).on('error', function(){
      console.log('獲取數(shù)據(jù)錯(cuò)誤!')
    })

    第二步

    我們根據(jù)需求來(lái)編寫過(guò)濾HTML的函數(shù),將過(guò)濾后的數(shù)據(jù)打印在控制臺(tái)。

    function filterChapters(html) {
        var $ = cheerio.load(html)
        var chapters = $('.course-card-container')//以類名獲取節(jié)點(diǎn)元素
        var titles = []
        chapters.each(function (item) {
            var chapter = $(this)
            var chapterTitle = chapter.find('h4').text()
            var id = chapter.find('a').attr('href').split('learn/')[1]
            titles.push({
                chapterTitle: chapterTitle,
                id: id
            })
        })
        return titles
    }
    function printCourseInfo(courseData){
        courseData.forEach(item => {
            console.log('【' + item.id + '】' + item.chapterTitle + '\n')
        });
    }

    爬蟲結(jié)果

    【935】Vue+Webpack打造todo應(yīng)用
    【882】基于websocket的火拼俄羅斯(單??版)
    【861】基于Websocket的火拼俄羅斯(基礎(chǔ))
    【866】前端性能優(yōu)化-通用的緩存SDK
    【773】AC2016騰訊前端技術(shù)大會(huì)
    【728】創(chuàng)業(yè)公司的Nodejs工程師
    【725】Roundtable前端分享專場(chǎng)
    【637】進(jìn)擊Node.js基礎(chǔ)(二)
    【590】阿里D2前端技術(shù)論壇——2015融合
    【564】去哪兒前端沙龍分享第三期
    【556】慕課網(wǎng)技術(shù)沙龍之前端專場(chǎng)
    【434】去哪兒前端沙龍分享第二期
    【367】Qnext前端交互沙龍
    【348】進(jìn)擊Node.js基礎(chǔ)(一)
    【221】D2前端技術(shù)論壇——2014綻放
    【197】node建站攻略(二期)——網(wǎng)站升級(jí)
    【75】node+mongodb 建站攻略(一期)

    讀到這里,這篇“node.js怎么實(shí)現(xiàn)簡(jiǎn)單爬蟲”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

    向AI問(wèn)一下細(xì)節(jié)

    免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

    AI