溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

使用開源搜索引擎YaCy的技巧是什么

發(fā)布時(shí)間:2022-01-07 16:48:27 來源:億速云 閱讀:479 作者:iii 欄目:互聯(lián)網(wǎng)科技

今天小編給大家分享一下使用開源搜索引擎YaCy的技巧是什么的相關(guān)知識點(diǎn),內(nèi)容詳細(xì),邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。

自定義 YaCy

YaCy 安裝好之后,只需要訪問 localhost:8090 就可以使用了。要自定義搜索引擎,只需要點(diǎn)擊右上角的“管理Administration”按鈕(它可能隱藏在小屏幕的菜單圖標(biāo)中)。

你可以在管理面板中配置 YaCy 對系統(tǒng)資源的使用策略,以及如何跟其它的 YaCy 客戶端進(jìn)行交互。

使用開源搜索引擎YaCy的技巧是什么

YaCy profile selector

例如,點(diǎn)擊側(cè)欄中的“第一步First steps”按鈕可以配置備用端口,以及設(shè)置 YaCy 對內(nèi)存和硬盤的使用量;而“監(jiān)控Monitoring”面板則可以監(jiān)控 YaCy 的運(yùn)行狀況。大多數(shù)功能都只需要在面板上點(diǎn)擊幾下就可以完成了,例如以下幾個(gè)常用的功能。

內(nèi)網(wǎng)搜索應(yīng)用

目前市面上也有不少公司推出了內(nèi)網(wǎng)搜索應(yīng)用,而  YaCy 可以免費(fèi)為你提供一個(gè)。對于能夠通過 HTTP、FTP、Samba 等協(xié)議訪問的文件,YaCy  都可以進(jìn)行索引,因此無論是作為私人的文件搜索還是企業(yè)內(nèi)部的本地共享文件搜索,YaCy 都可以實(shí)現(xiàn)。它可以讓內(nèi)部網(wǎng)絡(luò)中的用戶使用你個(gè)人的 YaCy  實(shí)例來查找共享文件,于此同時(shí)保持對內(nèi)部網(wǎng)絡(luò)以外的用戶不可見。

網(wǎng)絡(luò)配置

YaCy 在默認(rèn)情況下就支持隱私和隔離。點(diǎn)擊“用例與賬號Use Case & Account”頁面頂部的“網(wǎng)絡(luò)配置Network Configuration”鏈接,即可進(jìn)入網(wǎng)絡(luò)配置面板設(shè)置對等網(wǎng)絡(luò)。

使用開源搜索引擎YaCy的技巧是什么

YaCy network configuration

爬取站點(diǎn)

YaCy 的分布式運(yùn)作方式?jīng)Q定了它對頁面的爬取是由用戶驅(qū)動(dòng)的。并沒有一個(gè)大型公司對整個(gè)互聯(lián)網(wǎng)上的所有可訪問頁面都進(jìn)行搜索,對于 YaCy 來說也是這樣,一個(gè)站點(diǎn)只有在被用戶指定爬取的前提下,才會被 YaCy 爬取并進(jìn)入索引。

YaCy 客戶端提供了兩種爬取頁面的方式:你可以手動(dòng)爬取,并讓 YaCy 根據(jù)建議去爬取。

使用開源搜索引擎YaCy的技巧是什么

YaCy advanced crawler

手動(dòng)爬取

手動(dòng)爬取是指由用戶輸入指定的網(wǎng)站 URL 并啟動(dòng) YaCy 的爬蟲任務(wù)。只需要點(diǎn)擊“高級爬蟲Advanced Crawler”并輸入計(jì)劃爬取的若干 URL,然后選擇頁面底部的“進(jìn)行遠(yuǎn)程索引Do Remote indexing”選項(xiàng),這個(gè)選項(xiàng)會讓客戶端向互聯(lián)網(wǎng)廣播它要索引的 URL,可選地接受這些請求的客戶端可以幫助你爬取這些 URL。

點(diǎn)擊頁面底部的“開始新爬蟲任務(wù)Start New Crawl Job”按鈕就可以開始進(jìn)行爬取了,我就是這樣對一些常用和有用站點(diǎn)進(jìn)行爬取和索引的。

爬蟲任務(wù)啟動(dòng)之后,YaCy 會將這些 URL 對應(yīng)的頁面在本地生成和存儲索引。在高級模式下,也就是本地計(jì)算機(jī)允許 8090 端口流量進(jìn)出時(shí),全網(wǎng)的 YaCy 用戶都可以使用到這一份索引。

加入爬蟲網(wǎng)絡(luò)

盡管一些非常敬業(yè)的 YaCy  高級用戶已經(jīng)強(qiáng)迫癥般地在互聯(lián)網(wǎng)上爬取了很多頁面,但對于全網(wǎng)浩如煙海的頁面而言也只是滄海一粟。單個(gè)用戶所擁有的資源遠(yuǎn)不及很多大公司的網(wǎng)絡(luò)爬蟲,但大量  YaCy 用戶如果聯(lián)合起來成為一個(gè)社區(qū),能產(chǎn)生的力量就大得多了。只要開啟了 YaCy  的爬蟲請求廣播功能,就可以讓其它客戶端參與進(jìn)來爬取更多頁面。

只需要在“高級爬蟲Advanced Crawler”面板中點(diǎn)擊頁面頂部的“遠(yuǎn)程爬取Remote Crawling”,勾選“加載Load”旁邊的復(fù)選框,就可以讓你的客戶端接受其它人發(fā)來的爬蟲任務(wù)請求了。

使用開源搜索引擎YaCy的技巧是什么

YaCy remote crawling

YaCy 監(jiān)控相關(guān)

YaCy 除了作為一個(gè)非常強(qiáng)大的搜索引擎,還提供了很豐富的主題和用戶體驗(yàn)。你可以在“監(jiān)控Monitor”面板中監(jiān)控 YaCy 客戶端的網(wǎng)絡(luò)運(yùn)行狀況,甚至還可以了解到有多少人從 YaCy 社區(qū)中獲取到了自己所需要的東西。

使用開源搜索引擎YaCy的技巧是什么

YaCy monitoring screen

搜索引擎發(fā)揮了作用

你使用 YaCy  的時(shí)間越長,就越會思考搜索引擎如何改變自己的視野,因?yàn)槟銓ヂ?lián)網(wǎng)的體驗(yàn)很大一部分來自于你在搜索引擎中一次次簡單查詢的結(jié)果。實(shí)際上,當(dāng)你和不同行業(yè)的人交流時(shí),可能會注意到每個(gè)人對“互聯(lián)網(wǎng)”的理解都有所不同。有些人會認(rèn)為,互聯(lián)網(wǎng)的搜索引擎中充斥著各種廣告和推廣,同時(shí)也僅僅能從搜索結(jié)果中獲取到有限的信息。例如,假設(shè)有人不斷搜索關(guān)于關(guān)鍵詞  X 的內(nèi)容,那么大部分商業(yè)搜索引擎都會在搜索結(jié)果中提高關(guān)鍵詞 X 的權(quán)重,但與此同時(shí),另一個(gè)關(guān)鍵詞 Y 的權(quán)重則會相對降低,從而讓關(guān)鍵詞 Y  被淹沒在搜索結(jié)果當(dāng)中,即使這樣對完成特定任務(wù)更好。

以上就是“使用開源搜索引擎YaCy的技巧是什么”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學(xué)習(xí)更多的知識,請關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI