java之網(wǎng)絡爬蟲介紹

發(fā)布時間：2020-07-21 18:05:11 來源：網(wǎng)絡閱讀：587 作者：沙漏半杯欄目：編程語言

一、網(wǎng)絡爬蟲基本介紹

1. 什么是網(wǎng)絡爬蟲

??網(wǎng)絡爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡機器人，在社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

2. 常見問題介紹

爬蟲可以爬取ajax信息么？
??網(wǎng)頁上有一些異步加載的數(shù)據(jù)，爬取這些數(shù)據(jù)有兩種方法：使用模擬瀏覽器，或者分析ajax的http請求，自己生成ajax請求的url，獲取返回的數(shù)據(jù)。如果是自己生成ajax請求，使用開源爬蟲的意義在哪里？其實是要用開源爬蟲的線程池和URL管理功能（比如斷點爬取）。
??如果我已經(jīng)可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬?。?br/>??爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態(tài)或者動態(tài)頁面。爬取ajax信息屬于deep web（深網(wǎng)）的范疇，雖然大多數(shù)爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網(wǎng)站。爬蟲的第一輪爬取就是爬取種子集合(seeds)中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。

爬蟲支持多線程么、爬蟲能用代理么、爬蟲會爬取重復數(shù)據(jù)么、爬蟲能爬取JS生成的信息么？
??能不能爬js生成的信息和爬蟲本身沒有太大關系。爬蟲主要是負責遍歷網(wǎng)站和下載頁面。爬js生成的信息和網(wǎng)頁信息抽取模塊有關，往往需要通過模擬瀏覽器(htmlunit,selenium)來完成。這些模擬瀏覽器，往往需要耗費很多的時間來處理一個頁面。所以一種策略就是，使用這些爬蟲來遍歷網(wǎng)站，遇到需要解析的頁面，就將網(wǎng)頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。

爬蟲怎么保存網(wǎng)頁的信息？
??有一些爬蟲，自帶一個模塊負責持久化。比如webmagic，有一個模塊叫pipeline。通過簡單地配置，可以將爬蟲抽取到的信息，持久化到文件、數(shù)據(jù)庫等。還有一些爬蟲，并沒有直接給用戶提供數(shù)據(jù)持久化的模塊。比如crawler4j和webcollector。讓用戶自己在網(wǎng)頁處理模塊中添加提交數(shù)據(jù)庫的操作。至于使用pipeline這種模塊好不好，就和操作數(shù)據(jù)庫使用ORM好不好這個問題類似，取決于你的業(yè)務。

爬蟲怎么爬取要登陸的網(wǎng)站？
??這些開源爬蟲都支持在爬取時指定cookies，模擬登陸主要是靠cookies。至于cookies怎么獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登陸或者用模擬瀏覽器自動登陸獲取cookie。

爬蟲怎么抽取網(wǎng)頁的信息？
??開源爬蟲一般都會集成網(wǎng)頁抽取工具。主要支持兩種規(guī)范：CSS SELECTOR和XPATH。至于哪個好，這里不評價。

明明代碼寫對了，爬不到數(shù)據(jù)，是不是爬蟲有問題，換個爬蟲能解決么？
??如果代碼寫對了，又爬不到數(shù)據(jù)，換其他爬蟲也是一樣爬不到。遇到這種情況，要么是網(wǎng)站把你封了，要么是你爬的數(shù)據(jù)是javascript生成的。爬不到數(shù)據(jù)通過換爬蟲是不能解決的。

爬蟲速度怎么樣？
??單機開源爬蟲的速度，基本都可以講本機的網(wǎng)速用到極限。爬蟲的速度慢，往往是因為用戶把線程數(shù)開少了、網(wǎng)速慢，或者在數(shù)據(jù)持久化時，和數(shù)據(jù)庫的交互速度慢。而這些東西，往往都是用戶的機器和二次開發(fā)的代碼決定的。

爬蟲被網(wǎng)站封了怎么辦？
??爬蟲被網(wǎng)站封了，一般用多代理（隨機代理）就可以解決。但是這些開源爬蟲一般沒有直接支持隨機代理ip的切換。

二、java常見爬蟲框架介紹

1. Apache Nutch

（1）是否支持分布式：是
（2）可擴展性：中。Apache Nutch并不是一個可擴展性很強的爬蟲，它是一個專門為搜索引擎定制的網(wǎng)絡爬蟲，雖然Apache Nutch具有一套強大的插件機制，但通過定制插件并不能修改爬蟲的遍歷算法、去重算法和爬取流程。
（3）適用性：Apache Nutch是為搜索引擎定制的爬蟲，具有一套適合搜索引擎的URL維護機制（包括URL去重、網(wǎng)頁更新等），但這套機制并不適合目前大多數(shù)的精抽取業(yè)務（即結(jié)構化數(shù)據(jù)采集）。
（4）上手難易度：難。需要使用者熟悉網(wǎng)絡爬蟲原理、hadoop開發(fā)基礎及l(fā)inux shell，且需要熟悉Apache Ant

2. WebCollector

（1）可擴展性：強
（2）適用性：WebCollector適用于精抽取業(yè)務。
（3）上手難易度：簡單

3. WebMagic

（1）是否支持分布式：否
（2）可擴展性：強
（3）適用性：WebMagic適用于精抽取業(yè)務。
（4）上手難易度：簡單。

4. Crawler4j

（1）是否支持分布式：否
（2）可擴展性：低。Crawler4j實際上是一個單機版的垂直爬蟲，其遍歷算法是一種類似泛爬的算法，雖然可以添加一些限制，但仍不能滿足目前大部分的精抽取業(yè)務。另外，Crawler4j并沒有提供定制http請求的接口，因此Crawler4j并不適用于需要定制http請求的爬取業(yè)務（例如模擬登陸、多代理切換）。
（3）上手難易度：簡單

三、WebCollector實戰(zhàn)

1. WebCollector與傳統(tǒng)網(wǎng)絡爬蟲的區(qū)別

??傳統(tǒng)的網(wǎng)絡爬蟲傾向于整站下載，目的是將網(wǎng)站內(nèi)容原樣下載到本地，數(shù)據(jù)的最小單元是單個網(wǎng)頁或文件。而WebCollector可以通過設置爬取策略進行定向采集，并可以抽取網(wǎng)頁中的結(jié)構化信息。

2. WebCollector與HttpClient、Jsoup的區(qū)別

??WebCollector是爬蟲框架，HttpClient是Http請求組件，Jsoup是網(wǎng)頁解析器（內(nèi)置了Http請求功能）。
一些程序員在單線程中通過迭代或遞歸的方法調(diào)用HttpClient和Jsoup進行數(shù)據(jù)采集，這樣雖然也可以完成任務，但存在兩個較大的問題：
（1）單線程速度慢，多線程爬蟲的速度遠超單線程爬蟲。
（2）需要自己編寫任務維護機制。這套機制里面包括了URL去重、斷點爬取（即異常中斷處理）等功能。
WebCollector框架自帶了多線程和URL維護，用戶在編寫爬蟲時無需考慮線程池、URL去重和斷點爬取的問題。

3. WebCollector能夠處理的量級

??WebCollector目前有單機版和Hadoop版（WebCollector-Hadoop），單機版能夠處理千萬級別的URL，對于大部分的精數(shù)據(jù)采集任務，這已經(jīng)足夠了。WebCollector-Hadoop能夠處理的量級高于單機版，具體數(shù)量取決于集群的規(guī)模。

4. WebCollector的遍歷

??WebCollector采用一種粗略的廣度遍歷，但這里的遍歷與網(wǎng)站的拓撲樹結(jié)構沒有任何關系，用戶不需要在意遍歷的方式。
??網(wǎng)絡爬蟲會在訪問頁面時，從頁面中探索新的URL，繼續(xù)爬取。WebCollector為探索新URL提供了兩種機制，自動解析和手動解析。

5. 代碼實戰(zhàn)

maven引入依賴

   <dependencies>
        <dependency>
            <groupId>cn.edu.hfut.dmic.webcollector</groupId>
            <artifactId>WebCollector</artifactId>
            <version>2.73-alpha</version>
        </dependency>
    </dependencies>

自動解析

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;import cn.edu.hfut.dmic.webcollector.model.Page;import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;public class AutoNewsCrawler extends BreadthCrawler {    public AutoNewsCrawler(String crawlPath, boolean autoParse) {        super(crawlPath, autoParse);        this.addSeed("http://news.hfut.edu.cn/list-1-1.html");//種子頁面，起始頁面

        //正則規(guī)則設置 尋找符合http://news.hfut.edu.cn/show-xxxxxxhtml的url
        this.addRegex("http://news.hfut.edu.cn/show-.*html");        this.addRegex("-.*\\.(jpg|png|gif).*");        //不要爬取包含 #的URL
        this.addRegex("-.*#.*");

        setThreads(50);//線程數(shù)

        getConf().setTopN(100);//設置每次迭代中爬取數(shù)量的上限

            //設置是否為斷點爬取，如果設置為false，任務啟動前會清空歷史數(shù)據(jù)。
            //如果設置為true，會在已有crawlPath(構造函數(shù)的第一個參數(shù))的基礎上繼
            //續(xù)爬取。對于耗時較長的任務，很可能需要中途中斷爬蟲，也有可能遇到
            //死機、斷電等異常情況，使用斷點爬取模式，可以保證爬蟲不受這些因素
            //的影響，爬蟲可以在人為中斷、死機、斷電等情況出現(xiàn)后，繼續(xù)以前的任務
            //進行爬取。斷點爬取默認為false*///        setResumable(true);
    }    /*
        visit函數(shù)定制訪問每個頁面時所需進行的操作
    */
    @Override
    public void visit(Page page, CrawlDatums next) {
        String url = page.url();        //如果頁面地址如何我們要求
        if (page.matchUrl("http://news.hfut.edu.cn/show-.*html")) {

            String title = page.select("div[id=Article]>h3").first().text();//獲取url標題

            String content = page.selectText("div#artibody");

            System.out.println("URL:\n" + url);//地址

            System.out.println("title:\n" + title);//標題

            System.out.println("content:\n" + content);//內(nèi)容

                        /*如果你想添加新的爬取任務，可以向next中添加爬取任務，
               這就是上文中提到的手動解析*/
            /*WebCollector會自動去掉重復的任務(通過任務的key，默認是URL)，
              因此在編寫爬蟲時不需要考慮去重問題，加入重復的URL不會導致重復爬取*/
            /*如果autoParse是true(構造函數(shù)的第二個參數(shù))，爬蟲會自動抽取網(wǎng)頁中符合正則規(guī)則的URL，
              作為后續(xù)任務，當然，爬蟲會去掉重復的URL，不會爬取歷史中爬取過的URL。
              autoParse為true即開啟自動解析機制*/
            //next.add("http://xxxxxx.com");
        }
    }    public static void main(String[] args) throws Exception {

        AutoNewsCrawler crawler = new AutoNewsCrawler("crawl", true);

        crawler.start(4);//啟動爬蟲
    }

}

運行接入如下所示：

java之網(wǎng)絡爬蟲介紹

手動解析

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;import cn.edu.hfut.dmic.webcollector.model.Page;import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;public class ManualNewsCrawler extends BreadthCrawler {    public ManualNewsCrawler(String crawlPath, boolean autoParse) {        super(crawlPath, autoParse);        /*add 10 start pages and set their type to "list"
          "list" is not a reserved word, you can use other string instead
         */
        for(int i = 1; i <= 10; i++) {            this.addSeed("http://news.hfut.edu.cn/list-1-" + i + ".html", "list");//種子頁面，起始頁面
        }

        setThreads(50);//線程數(shù)

        getConf().setTopN(100);//設置每次迭代中爬取數(shù)量的上限

        //設置是否為斷點爬取，如果設置為false，任務啟動前會清空歷史數(shù)據(jù)。
        //如果設置為true，會在已有crawlPath(構造函數(shù)的第一個參數(shù))的基礎上繼
        //續(xù)爬取。對于耗時較長的任務，很可能需要中途中斷爬蟲，也有可能遇到
        //死機、斷電等異常情況，使用斷點爬取模式，可以保證爬蟲不受這些因素
        //的影響，爬蟲可以在人為中斷、死機、斷電等情況出現(xiàn)后，繼續(xù)以前的任務
        //進行爬取。斷點爬取默認為false*///        setResumable(true);
    }    /*
       visit函數(shù)定制訪問每個頁面時所需進行的操作
    * */
    @Override
    public void visit(Page page, CrawlDatums next) {
        String url = page.url();        if (page.matchType("list")) {

            next.add(page.links("div[class=' col-lg-8 '] li>a")).type("content");

        }else if(page.matchType("content")) {            /*if type is "content"*/
            /*extract title and content of news by css selector*/
            String title = page.select("div[id=Article]>h3").first().text();
            String content = page.selectText("div#artibody", 0);            //read title_prefix and content_length_limit from configuration
            title = getConf().getString("title_prefix") + title;
            content = content.substring(0, getConf().getInteger("content_length_limit"));

            System.out.println("URL:\n" + url);
            System.out.println("title:\n" + title);
            System.out.println("content:\n" + content);
        }

    }    public static void main(String[] args) throws Exception {
        ManualNewsCrawler crawler = new ManualNewsCrawler("crawl", false);

        crawler.getConf().setExecuteInterval(5000);

        crawler.getConf().set("title_prefix","PREFIX_");
        crawler.getConf().set("content_length_limit", 20);

        crawler.start(4);//啟動爬蟲
    }

}

運行結(jié)果如下圖所示：

java之網(wǎng)絡爬蟲介紹

向AI問一下細節(jié)

java之網(wǎng)絡爬蟲介紹

一、網(wǎng)絡爬蟲基本介紹

1. 什么是網(wǎng)絡爬蟲

2. 常見問題介紹

二、java常見爬蟲框架介紹

1. Apache Nutch

2. WebCollector

3. WebMagic

4. Crawler4j

三、WebCollector實戰(zhàn)

1. WebCollector與傳統(tǒng)網(wǎng)絡爬蟲的區(qū)別

2. WebCollector與HttpClient、Jsoup的區(qū)別

3. WebCollector能夠處理的量級

4. WebCollector的遍歷

5. 代碼實戰(zhàn)

猜你喜歡

最新資訊

相關推薦

相關標簽

一、網(wǎng)絡爬蟲基本介紹

二、java常見爬蟲框架介紹

2. WebCollector與HttpClient、Jsoup的區(qū)別