溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

java爬蟲框架webmagic包含什么組件

發(fā)布時間:2021-04-27 14:06:27 來源:億速云 閱讀:258 作者:小新 欄目:編程語言

這篇文章主要介紹了java爬蟲框架webmagic包含什么組件,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

Java的優(yōu)點(diǎn)是什么

1. 簡單,只需理解基本的概念,就可以編寫適合于各種情況的應(yīng)用程序;2. 面向?qū)ο螅?. 分布性,Java是面向網(wǎng)絡(luò)的語言;4. 魯棒性,java提供自動垃圾收集來進(jìn)行內(nèi)存管理,防止程序員在管理內(nèi)存時容易產(chǎn)生的錯誤。;5. 安全性,用于網(wǎng)絡(luò)、分布環(huán)境下的Java必須防止病毒的入侵。6. 體系結(jié)構(gòu)中立,只要安裝了Java運(yùn)行時系統(tǒng),就可在任意處理器上運(yùn)行。7. 可移植性,Java可以方便地移植到網(wǎng)絡(luò)上的不同機(jī)器。8.解釋執(zhí)行,Java解釋器直接對Java字節(jié)碼進(jìn)行解釋執(zhí)行。

在java爬蟲中,Spider是一個大的容器,也是java爬蟲框架webmagic的核心。java爬蟲框架webmagic有四個組件,這四個組件它也是由通過Spider啟動和管理。本文介紹java爬蟲中支撐WebMagic框架運(yùn)行的四個組件:PageProcessor、Scheduler、Downloader和Pipeline。

一、WebMagic框架

WebMagic是一個開源的Java爬蟲框架,目標(biāo)是簡化爬蟲的開發(fā)流程,讓開發(fā)者專注于邏輯功能的開發(fā)。

WebMagic框架的核心非常簡單,但是覆蓋爬蟲的整個流程,也是很好的學(xué)習(xí)爬蟲開發(fā)的材料。

二、WebMagic框架組件

包含四個組件:PageProcessor、Scheduler、Downloader和Pipeline。

四大組件由Spider將它們彼此組織起來,讓它們可以互相交互,流程化的執(zhí)行。

1、PageProcessor 

對應(yīng)爬蟲生命周期中的處理功能,負(fù)責(zé)解析頁面,抽取有用信息,以及發(fā)現(xiàn)新的鏈接。需要自己定義。

注意:對于每個站點(diǎn)每個頁面都不一樣,是需要使用者定制的部分。

2、Scheduler 

這四大組件對應(yīng)爬蟲生命周期中的管理功能,負(fù)責(zé)管理待抓取的URL,以及一些去重的工作。

注意:除非項目有一些特殊的分布式需求,否則一般無需自己定制Scheduler。

3、Pipeline 

對應(yīng)爬蟲生命周期中的持久化功能,負(fù)責(zé)抽取結(jié)果的處理,包括計算、持久化到文件、數(shù)據(jù)庫等。

注意:對于一類需求一般只需編寫一個Pipeline。

4、Downloader 

對應(yīng)爬蟲生命周期中的下載功能,負(fù)責(zé)從互聯(lián)網(wǎng)上下載頁面,以便后續(xù)處理。

注意:一般無需自己實現(xiàn)。

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“java爬蟲框架webmagic包含什么組件”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI