<s id="qjsot"></s>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python pkuseg工具怎么使用

發(fā)布時間：2021-12-18 13:51:48 來源：億速云閱讀：242 作者：iii 欄目：大數(shù)據(jù)

本篇內(nèi)容介紹了“python pkuseg工具怎么使用”的有關(guān)知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠?qū)W有所成！

細分領(lǐng)域的中文分詞工具，簡單易用，跟現(xiàn)有開源分詞工具相比提高了分詞的準確率。

Linux作為測試環(huán)境，在新聞數(shù)據(jù)(MSRA)、混合型文本(CTB8)、網(wǎng)絡(luò)文本(WEIBO)數(shù)據(jù)上對不同工具包進行了準確率測試。

細領(lǐng)域訓練及測試結(jié)果

以下是在不同數(shù)據(jù)集上的對比結(jié)果：

python pkuseg工具怎么使用

跨領(lǐng)域測試結(jié)果

我們選用了混合領(lǐng)域的CTB8語料的訓練集進行訓練，同時在其它領(lǐng)域進行測試，以模擬模型在“黑盒數(shù)據(jù)”上的分詞效果。選擇CTB8語料的原因是，CTB8屬于混合語料，理想情況下的效果會更好；而且在測試中我們發(fā)現(xiàn)在CTB8上訓練的模型，所有工具包跨領(lǐng)域測試都可以獲得更高的平均效果。以下是跨領(lǐng)域測試的結(jié)果：

python pkuseg工具怎么使用

pkuseg具有如下幾個特點：

多領(lǐng)域分詞。不同于以往的通用中文分詞工具，此工具包同時致力于為不同領(lǐng)域的數(shù)據(jù)提供個性化的預(yù)訓練模型。根據(jù)待分詞文本的領(lǐng)域特點，用戶可以自由地選擇不同的模型。我們目前支持了新聞領(lǐng)域，網(wǎng)絡(luò)文本領(lǐng)域和混合領(lǐng)域的分詞預(yù)訓練模型，同時也擬在近期推出更多的細領(lǐng)域預(yù)訓練模型，比如醫(yī)藥、旅游、專利、小說等等。
更高的分詞準確率。相比于其他的分詞工具包，當使用相同的訓練數(shù)據(jù)和測試數(shù)據(jù)，pkuseg可以取得更高的分詞準確率。
支持用戶自訓練模型。支持用戶使用全新的標注數(shù)據(jù)進行訓練。

使用方式

代碼示例1：使用默認模型及默認詞典分詞

import pkuseg

seg = pkuseg.pkuseg()                        # 以默認配置加載模型
text = seg.cut('我愛北京天安門')                # 進行分詞
print(text)

結(jié)果

    loading model
    finish
    ['我', '愛', '北京', '天安門']

“python pkuseg工具怎么使用”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么在Colab上實現(xiàn)近200萬圖片的精準檢索匹配
下一篇新聞：
如何進行springboot配置templates直接訪問的實現(xiàn)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<small id="xfvro"><em id="xfvro"><div id="xfvro"></div></em></small>