您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“python pkuseg工具怎么使用”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!
細分領(lǐng)域的中文分詞工具,簡單易用,跟現(xiàn)有開源分詞工具相比提高了分詞的準確率。
Linux作為測試環(huán)境,在新聞數(shù)據(jù)(MSRA)、混合型文本(CTB8)、網(wǎng)絡(luò)文本(WEIBO)數(shù)據(jù)上對不同工具包進行了準確率測試。
以下是在不同數(shù)據(jù)集上的對比結(jié)果:
我們選用了混合領(lǐng)域的CTB8語料的訓練集進行訓練,同時在其它領(lǐng)域進行測試,以模擬模型在“黑盒數(shù)據(jù)”上的分詞效果。選擇CTB8語料的原因是,CTB8屬于混合語料,理想情況下的效果會更好;而且在測試中我們發(fā)現(xiàn)在CTB8上訓練的模型,所有工具包跨領(lǐng)域測試都可以獲得更高的平均效果。以下是跨領(lǐng)域測試的結(jié)果:
多領(lǐng)域分詞。不同于以往的通用中文分詞工具,此工具包同時致力于為不同領(lǐng)域的數(shù)據(jù)提供個性化的預(yù)訓練模型。根據(jù)待分詞文本的領(lǐng)域特點,用戶可以自由地選擇不同的模型。 我們目前支持了新聞領(lǐng)域,網(wǎng)絡(luò)文本領(lǐng)域和混合領(lǐng)域的分詞預(yù)訓練模型,同時也擬在近期推出更多的細領(lǐng)域預(yù)訓練模型,比如醫(yī)藥、旅游、專利、小說等等。
更高的分詞準確率。相比于其他的分詞工具包,當使用相同的訓練數(shù)據(jù)和測試數(shù)據(jù),pkuseg可以取得更高的分詞準確率。
支持用戶自訓練模型。支持用戶使用全新的標注數(shù)據(jù)進行訓練。
代碼示例1:使用默認模型及默認詞典分詞
import pkuseg
seg = pkuseg.pkuseg() # 以默認配置加載模型
text = seg.cut('我愛北京天安門') # 進行分詞
print(text)
結(jié)果
loading model
finish
['我', '愛', '北京', '天安門']
“python pkuseg工具怎么使用”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。