ES如何對word和PDF文檔進行全文搜索。

發(fā)布時間：2021-10-29 09:14:14 來源：億速云閱讀：2418 作者：柒染欄目：大數(shù)據(jù)

本篇文章為大家展示了ES如何對word和PDF文檔進行全文搜索。，內(nèi)容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細(xì)介紹希望你能有所收獲。

ES 對 word和PDF文檔的全文搜索。可以用插件把文檔的內(nèi)容提取出來，導(dǎo)入到es，再進行搜索。有好幾個插件。

幾個內(nèi)容提取插件的比較：

https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/

一、ambar 官方對ES文件內(nèi)容提取插件的總結(jié)。

1、Ingest Attachment Plugin。

官方網(wǎng)站。
最簡單易用的解決方案，它是ElasticSearch官方的插件?？蓮膸缀跛形臋n類型中提取內(nèi)容。收錄附件無法微調(diào)，這就是為什么它不能處理大文件。

2、Apache Tika。

官方網(wǎng)站
Apache Tika是從文件中提取內(nèi)容的實際標(biāo)準(zhǔn)。粗略地說，Tika是提取文件內(nèi)容的開源庫的組合，并合并為一個庫。它是開源的，并且具有REST API。您必須具有在服務(wù)器上進行設(shè)置和配置的經(jīng)驗。您還應(yīng)該注意，Tika在某些類型的PDF（帶有圖像的PDF）中不能很好地工作，并且REST API的運行速度比直接Java調(diào)用慢得多，即使在本地主機上也是如此。
那么，您安裝了Tika，下一步是什么？您需要創(chuàng)建某種包裝器：

下載文件
調(diào)用Tika提取文件內(nèi)容
將已解析的內(nèi)容提交到ElasticSearch
為了使ElasticSearch快速搜索大文件，您必須自己對其進行調(diào)整。總結(jié)起來，Tika是一個很好的解決方案，但是它需要大量的代碼編寫和微調(diào)，尤其是對于邊緣情況：對于Tika來說，它是怪異的PDF和OCR。

3、FsCrawler

官方網(wǎng)站

FsCrawler是一個“快速而骯臟的”開源解決方案，適用于那些希望通過本地文件系統(tǒng)并通過SSH為文檔編制索引的人。它會抓取你的文件系統(tǒng)并為新文件建立索引，更新現(xiàn)有文件并刪除舊文件。FsCrawler用Java編寫，并且需要一些額外的工作來安裝和配置它。它支持定時抓取（例如，每15分鐘），還具有一些用于提交文件和定時計劃管理的基本API。FsCrawler在內(nèi)部使用Tika，通常來說，您可以將FsCrawler用作Tika和ElasticSearch之間的粘合劑。

4、Ambar

官方網(wǎng)站

它可以很好地處理大文件（> 100 MB）
它從PDF中提取內(nèi)容（即使格式不佳并帶有嵌入式圖像），并對圖像進行OCR
它為用戶提供了簡單易用的REST API和WEB UI
部署非常容易（感謝Docker）
它是根據(jù)Fair Source 1 v0.9許可開源的
開箱即用地為用戶提供解析和即時搜索體驗。

上述內(nèi)容就是ES如何對word和PDF文檔進行全文搜索。，你們學(xué)到知識或技能了嗎？如果還想學(xué)到更多技能或者豐富自己的知識儲備，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

ES如何對word和PDF文檔進行全文搜索。

幾個內(nèi)容提取插件的比較：

一、ambar 官方對ES文件內(nèi)容提取插件的總結(jié)。

1、Ingest Attachment Plugin。

2、Apache Tika。

3、FsCrawler

4、Ambar

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

ES如何對word和PDF文檔進行全文搜索。

一、ambar 官方對ES文件內(nèi)容提取插件的總結(jié)。

1、Ingest Attachment Plugin。

2、Apache Tika。

3、FsCrawler