溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能

發(fā)布時(shí)間:2021-09-03 15:11:02 來源:億速云 閱讀:129 作者:小新 欄目:移動(dòng)開發(fā)

這篇文章給大家分享的是有關(guān)Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。

文本挖掘已經(jīng)成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的研究領(lǐng)域。與一般數(shù)據(jù)挖掘以關(guān)系、事務(wù)和數(shù)據(jù)倉(cāng)庫中的結(jié)構(gòu)數(shù)據(jù)為研究目標(biāo)所不同的是,文本挖掘所研究的文本數(shù)據(jù)庫, 由來自各種數(shù)據(jù)源的大量文檔組成。這些文檔可能包含標(biāo)題、作者、出版日期、長(zhǎng)度等結(jié)構(gòu)化數(shù)據(jù), 也可能包含摘要和內(nèi)容等非結(jié)構(gòu)化的文本成分,而且這些文檔的內(nèi)容是人類所使用的自然語言,計(jì)算機(jī)很難處理其語義。因此傳統(tǒng)的信息檢索技術(shù)已不適應(yīng)日益增加的大量文本數(shù)據(jù)處理的需要,進(jìn)而人們提出文本挖掘的方法進(jìn)行不同的文檔比較以及文檔重要性和相關(guān)性排列,又或者找出多文檔的模式或趨勢(shì)等分析。

  Nlpir Parser搜索與挖掘智能平臺(tái)是網(wǎng)絡(luò)搜索、自然語言理解和文本挖掘的技術(shù)開發(fā)的基礎(chǔ)工具集,開發(fā)平臺(tái)由多個(gè)中間件組成,各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux,F(xiàn)reeBSD等不同操作系統(tǒng),可以供Java,C,C#等各類開發(fā)語言使用。

  Nlpir Parser搜索與挖掘智能平臺(tái)是一套專門針對(duì)原始文本集進(jìn)行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。用戶可以使用該軟件對(duì)自己的數(shù)據(jù)進(jìn)行處理。

  Nlpir Parser搜索與挖掘智能平臺(tái)的十二大功能:

  1. 全文精準(zhǔn)檢索:支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索??梢詿o縫地與現(xiàn)有文本處理系統(tǒng)與數(shù)據(jù)庫系統(tǒng)融合。

  2. 新詞發(fā)現(xiàn):從文件集合中挖掘出內(nèi)涵的新詞語列表,可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,從而提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。

  3. 分詞標(biāo)注:對(duì)原始語料進(jìn)行分詞、自動(dòng)識(shí)別人名地名機(jī)構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注。并可在分析過程中,導(dǎo)入用戶定義的詞典。

  4. 統(tǒng)計(jì)分析與術(shù)語翻譯:針對(duì)切分標(biāo)注結(jié)果,系統(tǒng)可以自動(dòng)地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語轉(zhuǎn)移概率統(tǒng)計(jì)(統(tǒng)計(jì)兩個(gè)詞左右連接的頻次即概率)。針對(duì)常用的術(shù)語,會(huì)自動(dòng)給出相應(yīng)的英文解釋。

  5. 文本聚類及熱點(diǎn)分析:能夠從大規(guī)模數(shù)據(jù)中自動(dòng)分析出熱點(diǎn)事件,并提供事件話題的關(guān)鍵特征描述。同時(shí)適用于長(zhǎng)文本和短信、微博等短文本的熱點(diǎn)分析。

  6. 分類過濾:針對(duì)事先指定的規(guī)則和示例樣本,系統(tǒng)自動(dòng)從海量文檔中篩選出符合需求的樣本。

  7. 正負(fù)面分析:針對(duì)事先指定的分析對(duì)象和示例樣本,系統(tǒng)自動(dòng)從海量文檔中篩選出正負(fù)面的得分和句子樣例。

  8. 自動(dòng)摘要:能夠?qū)纹蚨嗥恼?,自?dòng)提煉出內(nèi)容的精華,方便用戶快速瀏覽文本內(nèi)容。

  9. 關(guān)鍵詞提?。耗軌?qū)纹恼禄蛭恼录希崛〕鋈舾蓚€(gè)代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等。

  10. 文檔去重:能夠快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時(shí)找出所有的重復(fù)記錄。

  11. HTML正文提?。鹤詣?dòng)剔除導(dǎo)航性質(zhì)的網(wǎng)頁,剔除網(wǎng)頁中的HTML標(biāo)簽和導(dǎo)航、廣告等干擾性文字,返回有價(jià)值的正文內(nèi)容。適用于大規(guī)模互聯(lián)網(wǎng)信息的預(yù)處理和分析。

  12. 編碼自動(dòng)識(shí)別與轉(zhuǎn)換:自動(dòng)識(shí)別內(nèi)容的編碼,并把編碼統(tǒng)一轉(zhuǎn)換為GBK編碼。

  在多數(shù)情況下,文本挖掘的數(shù)據(jù)集十分龐大而且在不斷增加,因此,這些數(shù)據(jù)不可能存儲(chǔ)在一臺(tái)機(jī)器上進(jìn)行運(yùn)算。因此需要研究一種能夠并行運(yùn)行的文本挖掘算法以在計(jì)算機(jī)集群上并行地執(zhí)行文本挖掘任務(wù)。顯然,這結(jié)合了云計(jì)算以及數(shù)據(jù)密集型計(jì)算的需求,而且這本身也是一個(gè)在不斷成長(zhǎng)的領(lǐng)域。

感謝各位的閱讀!關(guān)于“Nlpir Parser搜索與挖掘智能平臺(tái)的有什么功能”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI