溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

node.js如何爬取在線電瓶車信息

發(fā)布時(shí)間:2022-12-01 09:26:44 來(lái)源:億速云 閱讀:111 作者:iii 欄目:開(kāi)發(fā)技術(shù)

本文小編為大家詳細(xì)介紹“node.js如何爬取在線電瓶車信息”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“node.js如何爬取在線電瓶車信息”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。

步驟

第一步,引入需要的庫(kù)

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個(gè)類似瀏覽器端的jQuery,用來(lái)解析HTML的
// fetch 用來(lái)發(fā)送請(qǐng)求

第二步,設(shè)置初始的爬取的入口(我身處杭州,所以地區(qū)選了杭州的)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每個(gè)a標(biāo)簽下是相對(duì)路徑,故需要一個(gè)根地址來(lái)拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是為了防止有相同的而重復(fù)爬去
var urls = new Set()
// 存儲(chǔ)所有數(shù)據(jù)
var data = []

分析網(wǎng)頁(yè),思考爬取的方式

思路:

  • 每次獲取當(dāng)前頁(yè)48個(gè)鏈接,并點(diǎn)進(jìn)去之后,拿到該電瓶車的名稱和價(jià)格(其他信息獲取方式一樣,自行改就好)

  • 第一頁(yè)的全部完成之后,翻到下一頁(yè),繼續(xù)爬,直到最后一頁(yè)結(jié)束

首先我們定義一個(gè)函數(shù)如下

// 這是得到每個(gè)頁(yè)面的48個(gè)鏈接,并開(kāi)始發(fā)送請(qǐng)求

function ad(arg){
// 參數(shù) arg 先不管
// 本地化一下需要爬取的鏈接
let url2 = arg || url;
// 請(qǐng)求第一頁(yè)該網(wǎng)頁(yè),拿到數(shù)據(jù)之后,復(fù)制給 app
var app = await fetch(url2).then(res=>res.text())
// 然后假裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當(dāng)前頁(yè)所有電瓶車的a標(biāo)簽
var ele = $("#J_PicMode a.pic")
// 存放已經(jīng)爬取過(guò)的url,防止重復(fù)爬取
var old_urls = []
var urlapp = []
//拿到所有a標(biāo)簽地址之后,存在數(shù)組里面,等會(huì)兒要開(kāi)始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成之后,循環(huán)加入jQuery?
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一頁(yè)的數(shù)據(jù)就爬完了
// console.log(data);

// 然后開(kāi)始爬取下一頁(yè)
var nextURL = $(".next").attr('href')
// 判斷當(dāng)前頁(yè)是不是最后一頁(yè)
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁(yè)的標(biāo)簽,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

讀到這里,這篇“node.js如何爬取在線電瓶車信息”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI