溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python分詞工具有哪些

發(fā)布時(shí)間:2021-06-29 09:34:45 來源:億速云 閱讀:158 作者:chen 欄目:編程語言

本篇內(nèi)容介紹了“Python分詞工具有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

 1、 jieba 分詞 github地址:

https://github.com/fxsjy/jieba

“結(jié)巴”分詞,可以說是 GitHub 最受歡迎的分詞工具,支持自定義詞典,支持多種分詞模式,立志成為 Python 中最好的中文分詞組件。

Python分詞工具有哪些

2. pkuseg 分詞 github地址:

https://github.com/lancopku/pkuseg-python

pkuseg 的特點(diǎn)是支持多種不同的分詞領(lǐng)域,新聞、網(wǎng)絡(luò)、醫(yī)藥、v旅游等領(lǐng)域的分詞訓(xùn)練模型,相比于其他分詞工具,不但可以自由的選擇不同模型,而且可以提供更高的分詞準(zhǔn)確率。

Python分詞工具有哪些

3. FoolNLTK 分詞 github地址:

https://github.com/rockyzhengwu/FoolNLTK

FoolNLTK 分詞是基于BiLSTM模型訓(xùn)練而來的,支持用戶自定義詞典,有人說它是最準(zhǔn)確的開源中文分詞,不知道你有沒有嘗試過呢?

Python分詞工具有哪些

4. THULAC github地址:

https://github.com/thunlp/THULAC-Python

THULAC由清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室,研制推出的具有詞性標(biāo)注功能的中文詞法分析工具包。能分析出某個(gè)詞是名詞還是動(dòng)詞或者形容詞。利用我們集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語料庫(約含5800萬字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese Treebank(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%,與該數(shù)據(jù)集上最好方法效果相當(dāng)。速度較快。

Python分詞工具有哪些

跟同事聊起分詞工具,他們很多人在用的還是結(jié)巴分詞,配合用戶自定義詞典,解決常見的網(wǎng)絡(luò)詞語。你在用哪個(gè)工具呢?

“Python分詞工具有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI