溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

怎么用python pkuseg生成云詞

發(fā)布時間:2021-12-17 14:48:12 來源:億速云 閱讀:207 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“怎么用python pkuseg生成云詞”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“怎么用python pkuseg生成云詞”吧!

安裝 pkuseg

pip3 install pkuseg

第一步是將演講內(nèi)容下載下來,保存到一個txt文件中,然后將內(nèi)容加載到內(nèi)存

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

我統(tǒng)計(jì)了一下,文字總數(shù)是32546個。

接下來我們用pkuseg對內(nèi)容進(jìn)行分詞處理,并統(tǒng)計(jì)出現(xiàn)頻率最高的前20個詞語是哪些。

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))

輸出結(jié)果:

怎么用python pkuseg生成云詞


什么鬼,這都是些啥玩意,別急,其實(shí)啊,分詞領(lǐng)域還有一個概念叫做停用詞,所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標(biāo)點(diǎn)符合等等。因?yàn)闆]人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我們就要把這些停用詞過去掉,我們?nèi)ゾW(wǎng)上找個停用詞庫。

第二版代碼:

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)

stopwords = []

with open("stopword.txt", encoding="utf-8") as f:
   stopwords = f.read()

new_text = []

for w in text:
   if w not in stopwords:
       new_text.append(w)

counter = Counter(new_text)
pprint.pprint(counter.most_common(20))

打印的結(jié)果:

[('微信', 163),
('用戶', 112),
('產(chǎn)品', 89),
('朋友', 81),
('工具', 56),
('程序', 55),
('社交', 55),
('圈', 47),
('視頻', 40),
('希望', 39),
('時間', 39),
('游戲', 36),
('閱讀', 33),
('內(nèi)容', 32),
('平臺', 31),
('文章', 30),
('信息', 29),
('團(tuán)隊(duì)', 27),
('AI', 27),
('APP', 26)]

看起來比第一次好多了,因?yàn)橥S迷~都過濾掉了,跟采銅那張圖片有點(diǎn)像了,不過他挑出來的詞可能是從另外一個維度來的,畢竟人家是搞心理學(xué)的。但是我們選出來的前20個高頻詞還是不準(zhǔn)確,有些不應(yīng)該分詞的也被拆分了,例如朋友圈,公眾號,小程序等詞,我們認(rèn)為這是一個整體。

對于這些專有名詞,我們只需要指定一個用戶詞典, 分詞時用戶詞典中的詞固定不分開,重新進(jìn)行分詞。

lexicon = ['小程序', '朋友圈', '公眾號']  #
seg = pkuseg.pkuseg(user_dict=lexicon)  # 加載模型,給定用戶詞典
text = seg.cut(content)

最后出來的結(jié)果前50個高頻詞是這樣的

163 微信
112 用戶
89 產(chǎn)品
72 朋友圈
56 工具
55 社交
53 小程序
40 視頻
39 希望
39 時間
36 游戲
33 閱讀
32 內(nèi)容
31 朋友
31 平臺
30 文章
29 信息
27 團(tuán)隊(duì)
27 AI
26 APP
25 公眾號
25 服務(wù)
24 好友
22 照片
21 時代
21 記錄
20 手機(jī)
20 推薦
20 企業(yè)
19 原動力
18 功能
18 真實(shí)
18 生活
17 流量
16 電腦
15 空間
15 發(fā)現(xiàn)
15 創(chuàng)意
15 體現(xiàn)
15 公司
15 價值
14 版本
14 分享
14 未來
13 互聯(lián)網(wǎng)
13 發(fā)布
13 能力
13 討論
13 動態(tài)
12 設(shè)計(jì)

張小龍講得最多的詞就是用戶、朋友、原動力、價值、分享、創(chuàng)意、發(fā)現(xiàn)等這些詞,用戶出現(xiàn)112次,希望39次,朋友31次,這些詞正是互聯(lián)網(wǎng)的精神,如果我們把這些做成詞云的話,可能效果會更好

怎么用python pkuseg生成云詞

到此,相信大家對“怎么用python pkuseg生成云詞”有了更深的了解,不妨來實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI