您好,登錄后才能下訂單哦!
這篇文章主要介紹了java爬蟲框架webmagic包含什么組件,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
1. 簡單,只需理解基本的概念,就可以編寫適合于各種情況的應(yīng)用程序;2. 面向?qū)ο螅?. 分布性,Java是面向網(wǎng)絡(luò)的語言;4. 魯棒性,java提供自動垃圾收集來進(jìn)行內(nèi)存管理,防止程序員在管理內(nèi)存時容易產(chǎn)生的錯誤。;5. 安全性,用于網(wǎng)絡(luò)、分布環(huán)境下的Java必須防止病毒的入侵。6. 體系結(jié)構(gòu)中立,只要安裝了Java運(yùn)行時系統(tǒng),就可在任意處理器上運(yùn)行。7. 可移植性,Java可以方便地移植到網(wǎng)絡(luò)上的不同機(jī)器。8.解釋執(zhí)行,Java解釋器直接對Java字節(jié)碼進(jìn)行解釋執(zhí)行。
在java爬蟲中,Spider是一個大的容器,也是java爬蟲框架webmagic的核心。java爬蟲框架webmagic有四個組件,這四個組件它也是由通過Spider啟動和管理。本文介紹java爬蟲中支撐WebMagic框架運(yùn)行的四個組件:PageProcessor、Scheduler、Downloader和Pipeline。
一、WebMagic框架
WebMagic是一個開源的Java爬蟲框架,目標(biāo)是簡化爬蟲的開發(fā)流程,讓開發(fā)者專注于邏輯功能的開發(fā)。
WebMagic框架的核心非常簡單,但是覆蓋爬蟲的整個流程,也是很好的學(xué)習(xí)爬蟲開發(fā)的材料。
二、WebMagic框架組件
包含四個組件:PageProcessor、Scheduler、Downloader和Pipeline。
四大組件由Spider將它們彼此組織起來,讓它們可以互相交互,流程化的執(zhí)行。
1、PageProcessor
對應(yīng)爬蟲生命周期中的處理功能,負(fù)責(zé)解析頁面,抽取有用信息,以及發(fā)現(xiàn)新的鏈接。需要自己定義。
注意:對于每個站點(diǎn)每個頁面都不一樣,是需要使用者定制的部分。
2、Scheduler
這四大組件對應(yīng)爬蟲生命周期中的管理功能,負(fù)責(zé)管理待抓取的URL,以及一些去重的工作。
注意:除非項目有一些特殊的分布式需求,否則一般無需自己定制Scheduler。
3、Pipeline
對應(yīng)爬蟲生命周期中的持久化功能,負(fù)責(zé)抽取結(jié)果的處理,包括計算、持久化到文件、數(shù)據(jù)庫等。
注意:對于一類需求一般只需編寫一個Pipeline。
4、Downloader
對應(yīng)爬蟲生命周期中的下載功能,負(fù)責(zé)從互聯(lián)網(wǎng)上下載頁面,以便后續(xù)處理。
注意:一般無需自己實現(xiàn)。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“java爬蟲框架webmagic包含什么組件”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。