溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點

發(fā)布時間:2021-12-09 13:53:53 來源:億速云 閱讀:191 作者:iii 欄目:云計算

本篇內(nèi)容介紹了“Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

網(wǎng)絡(luò)爬蟲架構(gòu)在Nutch+Hadoop之上,是一個典型的分布式離線批量處理架構(gòu),有非常優(yōu)異的吞吐量和抓取性能并提供了大量的配置定制選項。由于網(wǎng)絡(luò)爬蟲只負(fù)責(zé)網(wǎng)絡(luò)資源的抓取,所以,需要一個分布式搜索引擎,用來對網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)絡(luò)資源進(jìn)行實時的索引和搜索。

搜 索引擎架構(gòu)在ElasticSearch之上,是一個典型的分布式在線實時交互查詢架構(gòu),無單點故障,高伸縮、高可用。對大量信息的索引與搜索都可以在近 乎實時的情況下完成,能夠快速實時搜索數(shù)十億的文件以及PB級的數(shù)據(jù),同時提供了全方面的選項,可以對該引擎的幾乎每個方面進(jìn)行定制。支持RESTful 的API,可以使用JSON通過HTTP調(diào)用它的各種功能,包括搜索、分析與監(jiān)控。此外,還為Java、PHP、Perl、Python以及Ruby等各 種語言提供了原生的客戶端類庫。

網(wǎng)絡(luò)爬蟲通過將抓取到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取之后提交給搜索引擎進(jìn)行索引,以供查詢分析使用。由于搜索引擎的設(shè)計目標(biāo)在于近乎實時的復(fù)雜的交互式查詢,所以搜索引擎并不保存索引網(wǎng)頁的原始內(nèi)容,因此,需要一個近乎實時的分布式數(shù)據(jù)庫來存儲網(wǎng)頁的原始內(nèi)容。

分布式數(shù)據(jù)庫架構(gòu)在Hbase+Hadoop之上,是一個典型的分布式在線實時隨機(jī)讀寫架構(gòu)。極強(qiáng)的水平伸縮性,支持?jǐn)?shù)十億的行和數(shù)百萬的列,能夠?qū)W(wǎng)絡(luò)爬蟲提交的數(shù)據(jù)進(jìn)行實時寫入,并能配合搜索引擎,根據(jù)搜索結(jié)果實時獲取數(shù)據(jù)。

網(wǎng) 絡(luò)爬蟲、分布式數(shù)據(jù)庫、搜索引擎均運行在普通商業(yè)硬件構(gòu)成的集群上。集群采用分布式架構(gòu),能擴(kuò)展到成千上萬臺機(jī)器,具有容錯機(jī)制,部分機(jī)器節(jié)點發(fā)生故障不 會造成數(shù)據(jù)丟失也不會導(dǎo)致計算任務(wù)失敗。不但高可用,當(dāng)節(jié)點發(fā)生故障時能迅速進(jìn)行故障轉(zhuǎn)移,而且高伸縮,只需要簡單地增加機(jī)器就能水平線性伸縮、提升數(shù)據(jù) 存儲容量和計算速度。

網(wǎng)絡(luò)爬蟲、分布式數(shù)據(jù)庫、搜索引擎之間的關(guān)系:

1、網(wǎng)絡(luò)爬蟲將抓取到的HTML頁面解析完成之后,把解析出的數(shù)據(jù)加入緩沖區(qū)隊列,由其他兩個線程負(fù)責(zé)處理數(shù)據(jù),一個線程負(fù)責(zé)將數(shù)據(jù)保存到分布式數(shù)據(jù)庫,一個線程負(fù)責(zé)將數(shù)據(jù)提交到搜索引擎進(jìn)行索引。

2、搜索引擎處理用戶的搜索條件,并將搜索結(jié)果返回給用戶,如果用戶查看網(wǎng)頁快照,則從分布式數(shù)據(jù)庫中獲取網(wǎng)頁的原始內(nèi)容。

整體架構(gòu)如下圖所示:

Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

爬蟲集群、分布式數(shù)據(jù)庫集群、搜索引擎集群在物理部署上,可以部署到同一個硬件集群上,也可以分開部署,形成1-3個硬件集群。

網(wǎng)絡(luò)爬蟲集群有一個專門的網(wǎng)絡(luò)爬蟲配置管理系統(tǒng)來負(fù)責(zé)爬蟲的配置和管理,如下圖所示:

 
Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

搜 索引擎通過分片(shard)和副本(replica)實現(xiàn)了高性能、高伸縮和高可用。分片技術(shù)為大規(guī)模并行索引和搜索提供了支持,極大地提高了索引和搜 索的性能,極大地提高了水平擴(kuò)展能力;副本技術(shù)為數(shù)據(jù)提供冗余,部分機(jī)器故障不影響系統(tǒng)的正常使用,保證了系統(tǒng)的持續(xù)高可用。

有2個分片和3份副本的索引結(jié)構(gòu)如下所示:

 
Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點
 

一個完整的索引被切分為0和1兩個獨立部分,每一部分都有2個副本,即下面的灰色部分。

在 生產(chǎn)環(huán)境中,隨著數(shù)據(jù)規(guī)模的增大,只需簡單地增加硬件機(jī)器節(jié)點即可,搜索引擎會自動地調(diào)整分片數(shù)以適應(yīng)硬件的增加,當(dāng)部分節(jié)點退役的時候,搜索引擎也會自 動調(diào)整分片數(shù)以適應(yīng)硬件的減少,同時可以根據(jù)硬件的可靠性水平及存儲容量的變化隨時更改副本數(shù),這一切都是動態(tài)的,不需要重啟集群,這也是高可用的重要保 障。

“Hbase的網(wǎng)絡(luò)爬蟲及搜索引擎有什么優(yōu)點”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI