溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

發(fā)布時間:2020-08-17 15:57:26 來源:ITPUB博客 閱讀:233 作者:PDI 欄目:編程語言

最近需要做一個 Common File Reader 的 kettle 插件,希望這個插件可以讀取例如 PDF, WORD, PPT, WPS 等常見格式文件的內(nèi)容,今天已經(jīng)實(shí)現(xiàn)了第一步,讀取 PDF 的功能。

該插件是一個輸入步驟, 它可以將讀取到的 PDF 文件的每一頁作為一行輸入記錄。下面是一個比較典型的應(yīng)用例子:

[@more@]

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

這是一個簡單的文件檢索流程,可以用于小批量的文件檢索,檢索的輸入,輸出和規(guī)則都可以自定義,在這個例子里,我們可以這樣定義:

輸入1 是一個目錄,通過一個表達(dá)式(如 .*.pdf$)來指定只讀取一個目錄下的所有擴(kuò)展名是pdf 的文件。

輸入2 是一個 excel 文件,只有一列,每行可以指定一個關(guān)鍵字,如下面的格式指定了2個關(guān)鍵字。

keyword

面積

股權(quán)轉(zhuǎn)讓

在 javascripte步驟 里可以指定簡單的規(guī)則,返回的上下文的長度。

最后的 excel 輸出保存了檢索的結(jié)果,如下

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

可以看到檢索結(jié)果包括,關(guān)鍵字,上下文,文件名,結(jié)果所在文檔頁數(shù)等。

對于大規(guī)模的文件檢索,我們可以把 kettle 和 lucene 結(jié)合起來,先給文檔建立索引,再在 javascript 里直接使用lucene 的api來進(jìn)行檢索,這樣效率會有大幅提高。

不管檢索如何實(shí)現(xiàn),所用了 kettle 的流程后,再結(jié)合系統(tǒng)的作業(yè)調(diào)度,整個檢索流程就可以每天自動運(yùn)行了。如果再結(jié)合上文檔的來源的自動獲取,如從ftp 獲取,或使用爬蟲從網(wǎng)站抓取,整個一套的文檔的獲取,建索引,檢索,重新發(fā)布的流程就可以建立起來了。

下載地址:http://www.xgndata.com/download.htm

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI