怎么用用python制作詞云圖

發(fā)布時間：2021-12-14 17:44:24 來源：億速云閱讀：548 作者：小新欄目：大數(shù)據(jù)

這篇文章主要為大家展示了“怎么用用python制作詞云圖”，內(nèi)容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“怎么用用python制作詞云圖”這篇文章吧。

【示例代碼】

# coding=utf-8
# @Software : PyCharm
import numpy as np
import jieba
from PIL import Image
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

def draw_word_cloud(word):
    words = jieba.cut(word)
    wordstr = " ".join(words)
    sw = set(STOPWORDS)
    sw.add("ok")
    mask = np.array(Image.open('2.jpg'))
    wc = WordCloud(
        font_path='C:/Windows/Fonts/simhei.ttf',  # 設(shè)置字體格式
        mask=mask,
        max_words=200,
        max_font_size=100,
        stopwords=sw,
        scale=4,
    ).generate(wordstr)

    # 顯示詞云圖
    plt.imshow(wc)
    plt.axis("off")
    plt.show()
    # 保存詞云圖
    wc.to_file('result.jpg')

if __name__ == "__main__":
    with open("test2.txt", "rb") as f:
        word = f.read()
    draw_word_cloud(word)

【效果如下】

怎么用用python制作詞云圖

【知識點】

1、詞云圖制作前，需要先準(zhǔn)備幾個東西：

（1）下載python wordcloud庫，也是詞圖庫制作的關(guān)鍵庫。我在下載這個庫時，經(jīng)常因為網(wǎng)絡(luò)超時導(dǎo)致下載失敗，怎么辦呢？多試幾次唄；

（2）numpy庫，用于圖片處理，將圖片讀取后解析成數(shù)組；

（3）如果要對中文句子進(jìn)行分詞，那么需要jieba庫；如果是英文分詞，那可以不下載；

（4）如果要在界面上直接展示詞云圖，那么需要matlplotlib來畫圖；

（5）要處理圖片，根據(jù)少不了PIL，畢竟它可是官方的圖像處理庫；

2、接下來，就是準(zhǔn)備要分析的內(nèi)容。示例代碼中的txt內(nèi)容，是我上一篇文章。然后就是詞云圖的形狀。示例代碼中的圖片2.jpg原圖如下：

怎么用用python制作詞云圖

3、準(zhǔn)備工作做完了，那自然就開始編碼了。

（1）jieba.cut（）：就是對txt內(nèi)容進(jìn)行分詞了，注意得到的是個generator，因此需要將其轉(zhuǎn)成字符串；當(dāng)然也可以使用jieba.lcut（），這樣得到的就是列表了；

（2）STOPWORDS集合的設(shè)置：停用詞有什么呢？主要是對一些你不想要的單詞進(jìn)行過濾，比如“好的”“可以”這類單詞。另外，在對停用詞進(jìn)行過濾時，有兩種方法，一種是像示例代碼，將stopwords作為wordcloud方法的參數(shù)，這樣最簡單；也可以自己寫段代碼，人為過濾停用詞；

（3）將你要的詞云圖形狀圖片打開，并作為參數(shù)傳給wordcloud方法

（4）wordcloud方法各參數(shù)的意義，可以參考其他帖子：

https://blog.csdn.net/kouyi5627/article/details/80530569

里面我想著重講的是regexp參數(shù)，即正則表達(dá)式。沒錯，就是正則表達(dá)式，有了這個參數(shù)，我們可以用正則表達(dá)式規(guī)則進(jìn)一步實現(xiàn)自己的單詞過濾，比如\d只顯示數(shù)字。我之前遇到過這個坑，下面再講。

另外，scale=4生成的圖片一般是500KB左右，如果不填，默認(rèn)只有10幾KB；

（5）對內(nèi)容進(jìn)行生成詞云圖時，generate方法最簡單，直接將字符串傳進(jìn)來就可以；generate_from_frequencies方法的話，需要傳入字典，并自己統(tǒng)計好每個單詞的次數(shù)；

（6）界面顯示詞云圖的代碼很簡單，axis("off")是為了不顯示坐標(biāo)，這樣更美觀；

（7）即將生成的詞云圖保存到本地，也不多解釋。

綜上，大致就是示例代碼的流程，是不是蠻簡單的？那自己動手來玩一次吧。

4、下面我再講講自己在制作詞云圖遇到的坑。

一開始我是想對各期雙色球號碼進(jìn)行詞云圖分析的，結(jié)果一直報錯，錯誤如下：

ValueError: We need at least 1 word to plot a word cloud, got 0.

意思就是說我傳入的wordstr是空的？怎么可能呢，我明明有數(shù)字呀？最后我在wordcloud方法的官方說明中找到了原因：

怎么用用python制作詞云圖

看到?jīng)]？regexp參數(shù)如果不填寫的話，默認(rèn)是會自動過濾掉單個詞的，因此數(shù)字就是因為這個原因一直被過濾了。怎么解決呢？有兩個辦法，第一就是傳入regexp參數(shù)，比如regexp="\d*"；第二種方法就是用

generate_from_frequencies方法，這樣因為有每個數(shù)字的頻繁在，就不會自動被過濾掉了。從我自己的使用結(jié)果來看，還是用第二種方法的效果好看點。

以上是“怎么用用python制作詞云圖”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學(xué)習(xí)更多知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細(xì)節(jié)

怎么用用python制作詞云圖

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽