溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

node.js怎么爬取知乎圖片

發(fā)布時(shí)間:2022-12-01 10:56:28 來源:億速云 閱讀:128 作者:iii 欄目:開發(fā)技術(shù)

這篇文章主要介紹“node.js怎么爬取知乎圖片”的相關(guān)知識(shí),小編通過實(shí)際案例向大家展示操作過程,操作方法簡(jiǎn)單快捷,實(shí)用性強(qiáng),希望這篇“node.js怎么爬取知乎圖片”文章能幫助大家解決問題。

原理

初入爬蟲的坑,沒有太多深?yuàn)W的理論知識(shí),要獲取知乎上帖子中的一張圖片,我把它歸結(jié)為以下幾步。

  • 準(zhǔn)備一個(gè)url

  • 獲取這個(gè)url的html內(nèi)容,并分析其中的dom結(jié)構(gòu),遍歷找到這些漂亮的妹紙圖片url

  • 獲取圖片內(nèi)容

  • 將圖片內(nèi)容寫入本地文件

開始動(dòng)手

大概知道原理之后我們就可以開干了

準(zhǔn)備一個(gè)url

這個(gè)最簡(jiǎn)單了,去知乎隨便一搜就是一大把,我們以

發(fā)一張你認(rèn)為很漂亮的美女照片?

為例子,先來分析一下這個(gè)頁面的dom結(jié)構(gòu),其實(shí)很簡(jiǎn)單,知乎的一個(gè)頁面中會(huì)包含很多種類型的圖片,有頭像,用戶評(píng)價(jià)上傳的圖片啥的?;旧显趎oscript種都可以找到對(duì)應(yīng)的圖片地址。

獲取這個(gè)url的html內(nèi)容,并且拿到當(dāng)前頁面noscript中的img鏈接

這一步我們需要會(huì)點(diǎn)簡(jiǎn)單的nodejs的知識(shí),以及用到一個(gè)庫叫cheerio,這個(gè)庫具體是用來做什么的。

簡(jiǎn)單來說就是可以在命令行中使用jQuery來搜索遍歷獲取相應(yīng)的元素。

那么怎樣才能獲取這個(gè)帖子的html呢

使用nodejs的https模塊

var https = require('https')
getAllHtml (url, callback) {
 let sHtml = '',
 _this = this;
 https.get(url, (res) => {
 res.on('data', (data) => {
 sHtml += data;
 });
 res.on('end', () => {
 callback.bind(_this, sHtml)();
 })
 }).on('error', (err) => {
 console.log(err);
 });
}

通過以上操作拿到網(wǎng)站的html之后,便是遍歷出我們需要的圖片地址來了

filterHtml (sHtml, filePath) {
 let $ = cheerio.load(sHtml), // 將上一步拿到的網(wǎng)站html傳入cheerio.load,便得到類似于包裝過的jQuery對(duì)象,可以像jQuey的選擇器一樣來選擇元素
 $Imgs = $('noscript img'),
 imgData = [],
 _this = this;
 $Imgs.each((i, e) => {
 let imgUrl = $(e).attr('src'); //取出對(duì)應(yīng)的url
 imgData.push(imgUrl);
 // 將url傳入開始下載
 _this.downloadImg(imgUrl, _this.filePath, 
 function (err) {
 console.log(imgUrl + 'has be down');
 });
 });
 console.log(imgData);
}

有了圖片的url,如何下載到本地呢?

我們需要使用request這個(gè)庫,簡(jiǎn)單的調(diào)用一下api再結(jié)合node原生寫文件的api。

downloadImg (imgUrl, filePath, callback) {
 let fileName = this.parseFileName(imgUrl);
 request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
 }

關(guān)于“node.js怎么爬取知乎圖片”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI