您好,登錄后才能下訂單哦!
中文分詞(Chinese Word Segmentation),將中文語句切割成單獨的詞組。英文使用空格來分開每個單詞的,而中文單獨一個漢字跟詞有時候完全不是同個含義,因此,中文分詞相比英文分詞難度高很多。
分詞主要用于NLP 自然語言處理(Natural Language Processing),使用場景有:
Python的中文分詞庫有很多,常見的有:
通常前三個是比較經(jīng)常見到的,主要在易用性/準確率/性能都還不錯。我個人常用的一直都是結(jié)巴分詞(比較早接觸),最近使用pkuseg,兩者的使用后面詳細講。
“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件
jieba分詞實例
我們使用京東商場的美的電器評論來看看結(jié)巴分詞的效果。如果你沒有安裝結(jié)巴分詞庫則需要在命令行下輸入pip install jieba,安裝完之后即可開始分詞之旅。
評論數(shù)據(jù)整理在文件meidi_jd.csv文件中,讀取數(shù)據(jù)前先導入相關(guān)庫。因為中文的文本或文件的編碼方式不同編碼選擇gb18030,有時候是utf-8、gb2312、gbk自行測試。
# 導入相關(guān)庫 import pandas as pd import jieba # 讀取數(shù)據(jù) data = pd.read_csv('meidi_jd.csv', encoding='gb18030') # 查看數(shù)據(jù) data.head()
# 生成分詞 data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x))) data.head()
到這里我們僅僅通過一行代碼即可生成中文的分詞列表,如果你想要生成分詞后去重可以改成這樣。
data['cut'] = data['comment'].apply(lambda x : list(set(jieba.cut(x))))
經(jīng)過前面的分詞后,我們可以通過查看分詞是否準確,會發(fā)現(xiàn)實際上有些詞被分隔成單獨的漢字,例如:
print(data['cut'].loc[14])
['很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好']
這時候我們就需要導入自定義的詞典,以便包含 jieba 詞庫里沒有的詞。雖然 jieba 有新詞識別能力,但是自行添加新詞可以保證更高的正確率。自定義詞典采用一詞一行,為了演示我添加了“很好”并保存在dict.txt文件中,讓我們開始用自定義的詞典吧!
data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x))) data.head() print(data['cut'].loc[14])
['很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好']
現(xiàn)在已經(jīng)按照我們計劃的正確分詞出來了!很好!
分詞的過程中我們會發(fā)現(xiàn)實際上有些詞實際上意義不大,比如:標點符號、嗯、啊等詞,這個時候我們需要將停用詞去除掉。首先我們需要有個停用詞詞組,可以自定義也可以從網(wǎng)上下載詞庫,這里我們使用網(wǎng)上下載的停用詞文件StopwordsCN.txt。
# 讀取停用詞數(shù)據(jù) stopwords = pd.read_csv('StopwordsCN.txt', encoding='utf8', names=['stopword'], index_col=False) stopwords.head()
接下里我們只要適當更改分詞的代碼即可在分詞的時候去掉停用詞:
# 轉(zhuǎn)化詞列表 stop_list = stopwords['stopword'].tolist() # 去除停用詞 data['cut'] = data['comment'].apply(lambda x : [i for i in jieba.cut(x) if i not in stop_list]) data.head()
pkuseg簡單易用,支持細分領(lǐng)域分詞,有效提升了分詞準確度。
pkuseg具有如下幾個特點:
注:pkuseg目前僅支持Python3,目前已經(jīng)很多主流庫開始不支持Python2,建議使用Python3版本,如需使用Python2可創(chuàng)建虛擬環(huán)境來搭建。
pkuseg的使用跟結(jié)巴分詞有一點不一樣,pkuseg需要先創(chuàng)建模型實例再使用實例方法cut。前面有提到pkuseg是支持加載與訓練模型的,這也大大提高了分詞準確性,特別是對細分領(lǐng)域數(shù)據(jù)集進行分詞,詳細查看GitHub文檔。
import pkuseg # 以默認配置加載模型 seg = pkuseg.pkuseg() # 進行分詞 data['cut'] = data['comment'].apply(lambda x: [i for i in seg.cut(x) if i not in stop_list]) data.head()
同樣的,pkuseg也支持自定義詞典來提高分詞準確率。
# 使用默認模型,并使用自定義詞典 seg = pkuseg.pkuseg(user_dict='dict.txt') # 進行分詞 data['cut'] = data['comment'].apply(lambda x: [i for i in seg.cut(x) if i not in stop_list]) print(data['cut'].loc[14])
分詞模式下,用戶需要加載預訓練好的模型。pkuseg提供三種不同數(shù)據(jù)類型訓練得到的模型。
# 下載后解壓出來,并復制文件夾路徑 file_path = '/Users/jan/anaconda3/lib/python3.6/site-packages/pkuseg/ctb8' # 加載其他預訓練模型 seg = pkuseg.pkuseg(model_name=file_path) text = seg.cut('京東商城信得過,買的放心,用的省心、安心、放心!') print(text)
結(jié)巴的分詞速度說明比較簡單,描述中也沒有性能對比,更像是分詞內(nèi)容和環(huán)境。。
相比之下pkuseg選擇jieba、THULAC等國內(nèi)代表分詞工具包與pkuseg做性能比較。以下是在不同數(shù)據(jù)集上的對比結(jié)果:
從結(jié)果看pkuseg在精確度、召回率和F分數(shù)上表現(xiàn)得相當不錯。性能方面我使用jupyter notebook進行簡單測試。
%%timeit data['cut'] = data['comment'].apply(lambda x : [i for i in jieba.cut(x) if i not in stop_list])
%%timeit data['cut'] = data['comment'].apply(lambda x: [i for i in seg.cut(x) if i not in stop_list])
輸出結(jié)果:
結(jié)巴:2.54 s ± 3.77 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
pkuseg:7.45 s ± 68.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
從數(shù)據(jù)結(jié)果上看,pkuseg分詞的時間要高于結(jié)巴分詞的時間,當然pkuseg提供多進程來進行分詞,性能方面也是可以提高的。
到這里我們基本是已經(jīng)學會用Python庫進行分詞,關(guān)于詞頻統(tǒng)計的方式也很多,我們先將所有分詞合并在一起方便統(tǒng)計。
# 將所有的分詞合并 words = [] for content in data['cut']: words.extend(content)
方式一:
# 創(chuàng)建分詞數(shù)據(jù)框 corpus = pd.DataFrame(words, columns=['word']) corpus['cnt'] = 1 # 分組統(tǒng)計 g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False) g.head(10)
方式二:
# 導入相關(guān)庫 from collections import Counter from pprint import pprint counter = Counter(words) # 打印前十高頻詞 pprint(counter.most_common(10))
[('不錯', 3913),
('安裝', 3055),
('好', 2045),
('很好', 1824),
('買', 1634),
('熱水器', 1182),
('挺', 1051),
('師傅', 923),
('美', 894),
('送貨', 821)]
結(jié)尾
我個人的使用建議,如果想簡單快速上手分詞可以使用結(jié)巴分詞,但如果追求準確度和特定領(lǐng)域分詞可以選擇pkuseg加載模型再分詞。另外jieba和THULAC并沒有提供細分領(lǐng)域預訓練模型,如果想使用自定義模型分詞需使用它們提供的訓練接口在細分領(lǐng)域的數(shù)據(jù)集上進行訓練,用訓練得到的模型進行中文分詞。
更多關(guān)于Python中文分詞庫jieba,pkusegwg的相關(guān)文章可以點擊下面的相關(guān)鏈接
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。