您好,登錄后才能下訂單哦!
本篇文章為大家展示了ES如何對word和PDF文檔進行全文搜索。,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。
ES 對 word和PDF文檔的全文搜索。可以用插件把文檔的內(nèi)容提取出來,導(dǎo)入到es,再進行搜索。有好幾個插件。
https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/
官方網(wǎng)站。
最簡單易用的解決方案,它是ElasticSearch官方的插件??蓮膸缀跛形臋n類型中提取內(nèi)容。收錄附件無法微調(diào),這就是為什么它不能處理大文件。
官方網(wǎng)站
Apache Tika是從文件中提取內(nèi)容的實際標(biāo)準(zhǔn)。粗略地說,Tika是提取文件內(nèi)容的開源庫的組合,并合并為一個庫。它是開源的,并且具有REST API。您必須具有在服務(wù)器上進行設(shè)置和配置的經(jīng)驗。您還應(yīng)該注意,Tika在某些類型的PDF(帶有圖像的PDF)中不能很好地工作,并且REST API的運行速度比直接Java調(diào)用慢得多,即使在本地主機上也是如此。
那么,您安裝了Tika,下一步是什么?您需要創(chuàng)建某種包裝器:
下載文件
調(diào)用Tika提取文件內(nèi)容
將已解析的內(nèi)容提交到ElasticSearch
為了使ElasticSearch快速搜索大文件,您必須自己對其進行調(diào)整。 總結(jié)起來,Tika是一個很好的解決方案,但是它需要大量的代碼編寫和微調(diào),尤其是對于邊緣情況:對于Tika來說,它是怪異的PDF和OCR。
官方網(wǎng)站
FsCrawler是一個“快速而骯臟的”開源解決方案,適用于那些希望通過本地文件系統(tǒng)并通過SSH為文檔編制索引的人。它會抓取你的文件系統(tǒng)并為新文件建立索引,更新現(xiàn)有文件并刪除舊文件。FsCrawler用Java編寫,并且需要一些額外的工作來安裝和配置它。它支持定時抓取(例如,每15分鐘),還具有一些用于提交文件和定時計劃管理的基本API。FsCrawler在內(nèi)部使用Tika,通常來說,您可以將FsCrawler用作Tika和ElasticSearch之間的粘合劑。
官方網(wǎng)站
它可以很好地處理大文件(> 100 MB)
它從PDF中提取內(nèi)容(即使格式不佳并帶有嵌入式圖像),并對圖像進行OCR
它為用戶提供了簡單易用的REST API和WEB UI
部署非常容易(感謝Docker)
它是根據(jù)Fair Source 1 v0.9許可開源的
開箱即用地為用戶提供解析和即時搜索體驗。
上述內(nèi)容就是ES如何對word和PDF文檔進行全文搜索。,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。