您好,登錄后才能下訂單哦!
這篇“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”文章的知識點大部分人都不太理解,所以小編給大家總結了以下內(nèi)容,內(nèi)容詳細,步驟清晰,具有一定的借鑒價值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”文章吧。
通過如下代碼,讀取一個txt的高頻詞匯:
# 找到高頻詞匯 tmp_content = self.getContent(tmp_path) keyword_list = tmp_content.split('\n') word_count = dict() for keyword in keyword_list: for word,flag in jp.cut(keyword): if word in word_count: word_count[word] = word_count[word] +1 else: word_count[word] =1 for word, count in word_count.items(): print('%s\t%s' % (word,count))
很多情況下 jieba它不知道一些詞匯,比如說獲得的詞匯如下
建立
和 可視化
是2個獨立的單詞
通過添加自定義詞
import jieba import jieba.posseg as jp jieba.load_userdict(r'jieba_dict.txt')
就可以看到,統(tǒng)計出來的詞是這個自定義詞
有時 統(tǒng)計出來的某些詞匯jieba
認為是一個詞匯 但是此時 我想讓他變?yōu)槎鄠€詞匯 ,可以通過如下代碼實現(xiàn):
import jieba import jieba.posseg as jp jieba.del_word('創(chuàng)建活動')
此時 jieba 就會不認定 創(chuàng)建活動
是一個詞,它會將它們分開統(tǒng)計
以上就是關于“Python jieba分詞怎么添加自定義詞和去除不需要長尾詞”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對大家有幫助,若想了解更多相關的知識內(nèi)容,請關注億速云行業(yè)資訊頻道。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。