溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

網(wǎng)絡(luò)爬蟲(chóng)案例解析

發(fā)布時(shí)間:2020-09-05 08:45:53 來(lái)源:腳本之家 閱讀:149 作者:山登絕頂我為瘋 欄目:編程語(yǔ)言

網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常被稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本,已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲(chóng)抓取Web網(wǎng)頁(yè)、文檔甚至圖片、音頻、視頻等資源,通過(guò)相應(yīng)的索引技術(shù)組織這些信息,提供給搜索用戶進(jìn)行查詢。網(wǎng)絡(luò)爬蟲(chóng)也為中小站點(diǎn)的推廣提供了有效的途徑,網(wǎng)站針對(duì)搜索引擎爬蟲(chóng)的優(yōu)化曾風(fēng)靡一時(shí)。

網(wǎng)絡(luò)爬蟲(chóng)的基本工作流程如下:

1.首先選取一部分精心挑選的種子URL;

2.將這些URL放入待抓取URL隊(duì)列;

3.從待抓取URL隊(duì)列中取出待抓取在URL,解析DNS,并且得到主機(jī)的ip,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。

4.分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。

當(dāng)然,上面說(shuō)的那些我都不懂,以我現(xiàn)在的理解,我們請(qǐng)求一個(gè)網(wǎng)址,服務(wù)器返回給我們一個(gè)超級(jí)大文本,而我們的瀏覽器可以將這個(gè)超級(jí)大文本解析成我們說(shuō)看到的華麗的頁(yè)面

那么,我們只需要把這個(gè)超級(jí)大文本看成一個(gè)足夠大的String  字符串就OK了。

下面是我的代碼

package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
 * Created by 1755790963 on 2017/3/10.
 */
public class Second {
  public static void main(String[] args) throws IOException {
    System.out.println("begin");
    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    String selector="div[class=d_post_content j_d_post_content clearfix]";
    Elements elements = document.select(selector);
    for (Element element:elements){
      String word= element.text();
      if(word.indexOf("@")>0){
        word=word.substring(0,word.lastIndexOf("@")+7);
        System.out.println(word);
      }
      System.out.println(word);
    }
  }
}

我在這里使用了apache公司所提供的jsoup   jar包,jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過(guò)DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。

在代碼里,我們可以直接使用Jsoup類,并.出Jsoup的connect()方法,這個(gè)方法返回一個(gè)org.jsoup.Connection對(duì)象,參數(shù)則是網(wǎng)站的url地址,Connection對(duì)象有一個(gè)get()方法返回Document對(duì)象

document對(duì)象的select方法可以返回一個(gè)Elements對(duì)象,而Elements對(duì)象正式Element對(duì)象的集合,但select()方法需要我們傳入一個(gè)String參數(shù),這個(gè)參數(shù)就是我們的選擇器

String selector="div[class=d_post_content j_d_post_content  clearfix]";

我們的選擇器語(yǔ)法類似于jquery的選擇器語(yǔ)法,可以選取html頁(yè)面中的元素,選擇好后,就可以便利Elements集合,通過(guò)Element的text()方法獲取html中的代碼

這樣,一個(gè)最簡(jiǎn)單的網(wǎng)絡(luò)爬蟲(chóng)就寫完了。

我選擇的網(wǎng)址是 豆瓣網(wǎng),留下你的郵箱,我會(huì)給你發(fā)郵件  這樣一個(gè)百度貼吧,我扒的是所有人的郵箱地址

附上結(jié)果:

網(wǎng)絡(luò)爬蟲(chóng)案例解析

以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,同時(shí)也希望多多支持億速云!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI