Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能

發(fā)布時(shí)間：2021-09-03 15:11:02 來源：億速云閱讀：129 作者：小新欄目：移動(dòng)開發(fā)

這篇文章給大家分享的是有關(guān)Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，一起跟隨小編過來看看吧。

文本挖掘已經(jīng)成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的研究領(lǐng)域。與一般數(shù)據(jù)挖掘以關(guān)系、事務(wù)和數(shù)據(jù)倉(cāng)庫中的結(jié)構(gòu)數(shù)據(jù)為研究目標(biāo)所不同的是，文本挖掘所研究的文本數(shù)據(jù)庫, 由來自各種數(shù)據(jù)源的大量文檔組成。這些文檔可能包含標(biāo)題、作者、出版日期、長(zhǎng)度等結(jié)構(gòu)化數(shù)據(jù), 也可能包含摘要和內(nèi)容等非結(jié)構(gòu)化的文本成分，而且這些文檔的內(nèi)容是人類所使用的自然語言，計(jì)算機(jī)很難處理其語義。因此傳統(tǒng)的信息檢索技術(shù)已不適應(yīng)日益增加的大量文本數(shù)據(jù)處理的需要，進(jìn)而人們提出文本挖掘的方法進(jìn)行不同的文檔比較以及文檔重要性和相關(guān)性排列，又或者找出多文檔的模式或趨勢(shì)等分析。

　　Nlpir Parser搜索與挖掘智能平臺(tái)是網(wǎng)絡(luò)搜索、自然語言理解和文本挖掘的技術(shù)開發(fā)的基礎(chǔ)工具集，開發(fā)平臺(tái)由多個(gè)中間件組成，各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中，可兼容Windows，Linux，F(xiàn)reeBSD等不同操作系統(tǒng)，可以供Java，C，C#等各類開發(fā)語言使用。

　　Nlpir Parser搜索與挖掘智能平臺(tái)是一套專門針對(duì)原始文本集進(jìn)行處理和加工的軟件，提供了中間件處理效果的可視化展示，也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。用戶可以使用該軟件對(duì)自己的數(shù)據(jù)進(jìn)行處理。

　　Nlpir Parser搜索與挖掘智能平臺(tái)的十二大功能：

　　1. 全文精準(zhǔn)檢索：支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型，多字段的高效搜索，支持AND/OR/NOT以及NEAR鄰近等查詢語法，支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索?？梢詿o縫地與現(xiàn)有文本處理系統(tǒng)與數(shù)據(jù)庫系統(tǒng)融合。

　　2. 新詞發(fā)現(xiàn)：從文件集合中挖掘出內(nèi)涵的新詞語列表，可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注，導(dǎo)入分詞詞典中，從而提高分詞系統(tǒng)的準(zhǔn)確度，并適應(yīng)新的語言變化。

　　3. 分詞標(biāo)注：對(duì)原始語料進(jìn)行分詞、自動(dòng)識(shí)別人名地名機(jī)構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注。并可在分析過程中，導(dǎo)入用戶定義的詞典。

　　4. 統(tǒng)計(jì)分析與術(shù)語翻譯：針對(duì)切分標(biāo)注結(jié)果，系統(tǒng)可以自動(dòng)地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語轉(zhuǎn)移概率統(tǒng)計(jì)(統(tǒng)計(jì)兩個(gè)詞左右連接的頻次即概率)。針對(duì)常用的術(shù)語，會(huì)自動(dòng)給出相應(yīng)的英文解釋。

　　5. 文本聚類及熱點(diǎn)分析：能夠從大規(guī)模數(shù)據(jù)中自動(dòng)分析出熱點(diǎn)事件，并提供事件話題的關(guān)鍵特征描述。同時(shí)適用于長(zhǎng)文本和短信、微博等短文本的熱點(diǎn)分析。

　　6. 分類過濾：針對(duì)事先指定的規(guī)則和示例樣本，系統(tǒng)自動(dòng)從海量文檔中篩選出符合需求的樣本。

　　7. 正負(fù)面分析：針對(duì)事先指定的分析對(duì)象和示例樣本，系統(tǒng)自動(dòng)從海量文檔中篩選出正負(fù)面的得分和句子樣例。

　　8. 自動(dòng)摘要：能夠?qū)纹蚨嗥恼?，自?dòng)提煉出內(nèi)容的精華，方便用戶快速瀏覽文本內(nèi)容。

　　9. 關(guān)鍵詞提?。耗軌?qū)纹恼禄蛭恼录希崛〕鋈舾蓚€(gè)代表文章中心思想的詞匯或短語，可用于精化閱讀、語義查詢和快速匹配等。

　　10. 文檔去重：能夠快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄，同時(shí)找出所有的重復(fù)記錄。

　　11. HTML正文提?。鹤詣?dòng)剔除導(dǎo)航性質(zhì)的網(wǎng)頁，剔除網(wǎng)頁中的HTML標(biāo)簽和導(dǎo)航、廣告等干擾性文字，返回有價(jià)值的正文內(nèi)容。適用于大規(guī)模互聯(lián)網(wǎng)信息的預(yù)處理和分析。

　　12. 編碼自動(dòng)識(shí)別與轉(zhuǎn)換：自動(dòng)識(shí)別內(nèi)容的編碼，并把編碼統(tǒng)一轉(zhuǎn)換為GBK編碼。

　　在多數(shù)情況下，文本挖掘的數(shù)據(jù)集十分龐大而且在不斷增加，因此，這些數(shù)據(jù)不可能存儲(chǔ)在一臺(tái)機(jī)器上進(jìn)行運(yùn)算。因此需要研究一種能夠并行運(yùn)行的文本挖掘算法以在計(jì)算機(jī)集群上并行地執(zhí)行文本挖掘任務(wù)。顯然，這結(jié)合了云計(jì)算以及數(shù)據(jù)密集型計(jì)算的需求，而且這本身也是一個(gè)在不斷成長(zhǎng)的領(lǐng)域。

感謝各位的閱讀！關(guān)于“Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

向AI問一下細(xì)節(jié)

Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽