溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

RSS與爬蟲怎么搜集數(shù)據(jù)

發(fā)布時(shí)間:2020-09-22 11:55:33 來源:億速云 閱讀:500 作者:小新 欄目:編程語(yǔ)言

這篇文章給大家分享的是有關(guān)RSS與爬蟲怎么搜集數(shù)據(jù)的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。

摘要:數(shù)據(jù)的價(jià)值被挖掘出來之前,先要通過收集、存儲(chǔ)、分析計(jì)算等過程,獲得全面、準(zhǔn)確的數(shù)據(jù)是數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)。本期CSDN云計(jì)算俱樂部“大數(shù)據(jù)故事”將從最為常見的數(shù)據(jù)搜集方式說起——RSS和搜索引擎爬蟲。

12月30日,CSDN云計(jì)算俱樂部活動(dòng)在3W咖啡舉行,活動(dòng)主題是“RSS與爬蟲:大數(shù)據(jù)的故事——從如何搜集數(shù)據(jù)開始”。數(shù)據(jù)的價(jià)值被挖掘出來之前,先要通過收集、存儲(chǔ)、分析計(jì)算等過程,獲得全面、準(zhǔn)確的數(shù)據(jù)是數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)。也許當(dāng)下數(shù)據(jù)并不能為企業(yè)或組織帶來實(shí)際價(jià)值,但作為有遠(yuǎn)見的決策者應(yīng)該意識(shí)到,應(yīng)盡早收集、保存重要數(shù)據(jù),數(shù)據(jù)就是財(cái)富。本期“大數(shù)據(jù)故事”將從最為常見的數(shù)據(jù)搜集方式說起——RSS和搜索引擎爬蟲。

RSS與爬蟲怎么搜集數(shù)據(jù)

活動(dòng)現(xiàn)場(chǎng)座無虛席

首先,北京萬方軟件股份有限公司圖書館事業(yè)部總經(jīng)理崔克俊分享的主題是“大規(guī)模進(jìn)行RSS聚合和網(wǎng)站下載在科學(xué)研究中的初步應(yīng)用”。崔克俊在圖書館、情報(bào)行業(yè)從業(yè)12年,有豐富的數(shù)據(jù)采集經(jīng)驗(yàn),他主要分享了信息聚合的一種重要方式RSS及其實(shí)現(xiàn)技術(shù)。

RSS(Really Simple Syndication)是一種消息來源格式規(guī)范,用以聚合經(jīng)常發(fā)布更新數(shù)據(jù)的網(wǎng)站,例如博客文章、新聞、音頻或視頻的網(wǎng)摘。RSS文件包含了全文或是節(jié)錄的文字,再加上發(fā)用者所訂閱之網(wǎng)摘布數(shù)據(jù)和授權(quán)的元數(shù)據(jù)。

對(duì)某一行業(yè)密切相關(guān)的幾百個(gè)甚至幾千個(gè)RSS種子進(jìn)行的聚合,將能快速、全面了解某一行的最新動(dòng)態(tài);對(duì)某一行業(yè)的的幾十個(gè)甚至幾百個(gè)網(wǎng)站進(jìn)行完整的數(shù)據(jù)下載,并進(jìn)行數(shù)據(jù)挖掘,將能了解某一主題在該行業(yè)發(fā)展的來龍去脈。

RSS與爬蟲怎么搜集數(shù)據(jù)

北京萬方軟件股份有限公司圖書館事業(yè)部總經(jīng)理 崔克俊

崔克俊以高能物理研究所為例,介紹了RSS在科研院所的應(yīng)用。 高能物理信息監(jiān)測(cè)對(duì)象為全球高能物理同行機(jī)構(gòu):實(shí)驗(yàn)室、行業(yè)學(xué)會(huì)、國(guó)際協(xié)會(huì)、各國(guó)主管科研政府機(jī)構(gòu)、重點(diǎn)綜合性科學(xué)出版物、高能物理試驗(yàn)項(xiàng)目和實(shí)驗(yàn)設(shè)施。監(jiān)控的信息類型為:新聞、論文、會(huì)議報(bào)告、分析評(píng)論、預(yù)印本、案例研究、多媒體、圖書、招聘信息等。

高能物理文獻(xiàn)信息所采用最先進(jìn)的開源內(nèi)容管理系統(tǒng) Drupal,開源搜索技術(shù) Apache Solr,以及Google員工開發(fā)的能實(shí)時(shí)訂閱新聞的 PubSubHubbub技術(shù)和Amazon的 OpenSearch,建立了一套高能物理信息監(jiān)測(cè)系統(tǒng),有別于傳統(tǒng)的RSS訂閱和推送,實(shí)現(xiàn)了幾乎實(shí)時(shí)的信息抓取和任意關(guān)鍵詞、任意類別、復(fù)合條件新聞的主動(dòng)推送。

接下來,崔克俊分享了Drupal、Apache Solr、PubSubHubbub和OpenSearch等技術(shù)的使用心得。

接下來,宜搜科技搜索部架構(gòu)師爬蟲組負(fù)責(zé)人葉順平帶來了題為“網(wǎng)頁(yè)搜索爬蟲時(shí)效性系統(tǒng)”的分享,包括時(shí)效性系統(tǒng)的主要目標(biāo)、架構(gòu),以及各個(gè)子模塊的設(shè)計(jì)方案。

RSS與爬蟲怎么搜集數(shù)據(jù)

宜搜科技搜索部架構(gòu)師爬蟲組負(fù)責(zé)人 葉順平

網(wǎng)頁(yè)爬蟲的幾個(gè)目標(biāo)是覆蓋率高、死鏈率低和實(shí)效性好,爬蟲實(shí)效性系統(tǒng)的目標(biāo)也差不多,主要是實(shí)現(xiàn)新網(wǎng)頁(yè)快速和全面的收錄。下圖為時(shí)效性系統(tǒng)的整體架構(gòu):

RSS與爬蟲怎么搜集數(shù)據(jù)

其中,上面第一個(gè)是RSS/sitemap一個(gè)子系統(tǒng),接下來是網(wǎng)頁(yè)泛爬的調(diào)度系統(tǒng)Webmain scheduler,然后是一個(gè)時(shí)效性模塊Vertical Scheduler,最左側(cè)是DNS服務(wù),抓取的時(shí)候,一般是幾十臺(tái)甚至是幾百臺(tái)的抓取集群,如果每一臺(tái)都有防御的話對(duì)DNS的壓力比較大,所以一般有一個(gè)DNS的服務(wù)模塊來做全局的服務(wù)。數(shù)據(jù)抓取完畢后,一般會(huì)做后續(xù)的數(shù)據(jù)處理。

涉及到實(shí)效性的模塊包括以下幾個(gè):

RSS/sitemap系統(tǒng):時(shí)效性系統(tǒng)利用RSS/sitemap的過程是挖掘種子,定時(shí)抓取,解析鏈接發(fā)布時(shí)間,將較新的網(wǎng)頁(yè)優(yōu)先抓取并索引。

泛爬系統(tǒng):泛爬系統(tǒng)設(shè)計(jì)良好的話有助于提高時(shí)效性網(wǎng)頁(yè)的高覆蓋率,但泛爬需要盡可能縮短調(diào)度周期。

種子調(diào)度系統(tǒng):主要是一個(gè)時(shí)效性的種子庫(kù),這個(gè)種子庫(kù)里面有一些信息調(diào)度系統(tǒng)會(huì)不斷地掃描這個(gè)數(shù)據(jù)庫(kù),然后發(fā)給抓取集群,這個(gè)集群抓取完會(huì)進(jìn)行一些抽取鏈接的處理,接下來把這些按類別發(fā)出去,各個(gè)垂直頻道會(huì)獲取到時(shí)效性的數(shù)據(jù)。

種子的挖掘:涉及到頁(yè)面解析或其它的一些挖掘手段,可以通過站點(diǎn)地圖,還有導(dǎo)航條來構(gòu)建,還要基于頁(yè)面結(jié)構(gòu)特征和頁(yè)面變更規(guī)律。

種子的更新機(jī)制:記錄每個(gè)種子的抓取歷史,follow的鏈接信息,定期根據(jù)種子的外鏈更新特征,重新計(jì)算種子的更新周期。

抓取系統(tǒng)與JavaScript解析:使用瀏覽器進(jìn)行抓取,搭建一個(gè)基于瀏覽器抓取的抓取集群。或采用開源項(xiàng)目,如Qtwebkit。

感謝各位的閱讀!關(guān)于RSS與爬蟲怎么搜集數(shù)據(jù)就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI