溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Node.js(十三)——Promise重構(gòu)爬蟲代碼

發(fā)布時(shí)間:2020-07-12 01:14:17 來源:網(wǎng)絡(luò) 閱讀:733 作者:mazongfei 欄目:web開發(fā)

在重構(gòu)代碼之前,先要了解下什么是https?

https協(xié)議:基于ssl/tls的http協(xié)議,所有的數(shù)據(jù)都是在

ssl/tls協(xié)議的封裝之上傳輸?shù)?,也就是說https協(xié)議是在http協(xié)議基礎(chǔ)上

添加了ssl/tls握手以及數(shù)據(jù)加密傳輸,因此這就是兩者之間最大的區(qū)別。

https模塊專門處理加密訪問的,區(qū)別在于搭建https服務(wù)器的時(shí)候需要有ssl證書。

模擬搭建https服務(wù)器

var https = require('https')
var fs = require('fs')//文件系統(tǒng)模塊

var options = {
	//同步的讀出ssl證書__虛擬
	key:fs.readFileSync('ssh_key.pem')
	cert:fs.readFileSync('ssh_cert.pem')
}
//通過以上讀取證書之后就可以運(yùn)行https服務(wù)器

https.createServer(options, function(req,res){
	res.wirteHead(200)
	res.end('Hello Https')
}).listen(8090)


重構(gòu)爬蟲代碼:

var http = require('http')
var cheerio = require('cheerio')
//在新版本中Promise已經(jīng)內(nèi)置
var promise = require('bluebird')
var baseUrl = 'http://www.imooc.com/learn/'

var videoIds = [348,259,197,134,751]

function filterChapters(html){
	var $ = cheerio.load(html)
	var chapters = $('.mod-chapters')
	//標(biāo)題
	var title = $('#main .path span').text()
	//學(xué)習(xí)的人數(shù)
	//var number = parseInt($($('static-item')[0]).text().trim(),10)
	//var number = $($('.static-item span')[1]).text();
	//var number = parseInt($('.meta-value js-learn-num').text().trim(),10)
	var number = $('.meta-value js-learn-num').html()
	var courseData = {
		title:title,
		number:number,
		videos:[]
	}
	//遍歷的里面拿到數(shù)據(jù)
	chapters.each(function(item){
		var chapter = $(this);
		
		//章節(jié)標(biāo)題
		var chapterTitle = chapter.find('strong').text()
		console.log(chapterTitle)
		var videos = chapter.find('.video').children('li')
		var chapterData = {
			chapterTitle:chapterTitle,
			videos:[]
		}
		
		//遍歷videos
		videos.each(function(item){
			var video = $(this).find('.J-media-item')
			var videoTitle = video.text()
			var id = video.attr('href').split('video/')[1]
			
			chapterData.videos.push({
				title:videoTitle,
				id:id
			})
		})
		
		
		courseData.videos.push(chapterData)
	})
	
	return courseData
}

function printCourseInfo(coursesData){
	
	coursesData.forEach(function(courseData){
		console.log(courseData.number + ' 人學(xué)過 '+courseData.title+'\n')
	})
	
	//數(shù)組中的遍歷
	coursesData.forEach(function(courseData){
		console.log('### '+courseData.title+'\n')
		courseData.videos.forEach(function(item){
		
		var chapterTitle = item.chapterTitle
		item.videos.forEach(function(video){
			console.log('【'+video.id+'】'+video.title);
		})
	})
	})
	
}



function getPageAsync(url){
	return new Promise(function(resolve,reject){
		console.log('正在抓取' + url  )
		
		http.get(url, function(res){
		var html = ''
		
		res.on('data',function(data){
			html += data
		})
		
		res.on('end',function(){
			//在請(qǐng)求完成的時(shí)候,通過resolve傳遞下去
			resolve(html)
		}).on('error',function(e){
			//如果出錯(cuò)了
			reject(e)
			console.log('獲取頁(yè)面出錯(cuò)')
		})
	})
		
	})
}

var fetchCourseArray = []

videoIds.forEach(function(id){
	//遍歷的結(jié)果傳遞過去
	 fetchCourseArray.push(getPageAsync(baseUrl + id))
})


//需要做并發(fā)控制,全部去爬
Promise
	.all(fetchCourseArray)
	.then(function(pages){
	//多頁(yè)面處理
	var coursesData = []
	//對(duì)page進(jìn)行加工
	pages.forEach(function(html){
		//對(duì)html進(jìn)行解析
		var courses = filterChapters(html)
		coursesData.push(courses)
	})
	
	//遍歷
	coursesData.sort(function(a,b){
		return a.number < b.number
	})
	
	printCourseInfo(coursesData)
})

運(yùn)行結(jié)果如下:

Node.js(十三)——Promise重構(gòu)爬蟲代碼

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI