溫馨提示×

怎么使用NLTK庫統(tǒng)計詞頻

小億
118
2024-05-11 17:29:56
欄目: 編程語言

使用NLTK庫統(tǒng)計詞頻可以按照以下步驟:

1.導(dǎo)入NLTK庫和必要的模塊:

import nltk
from nltk import FreqDist
from nltk.tokenize import word_tokenize

2.加載文本數(shù)據(jù)并進行分詞:

text = "This is a sample text for calculating word frequency using NLTK library."
words = word_tokenize(text)

3.使用FreqDist類來統(tǒng)計詞頻并輸出結(jié)果:

freq_dist = FreqDist(words)
print(freq_dist.most_common())

這將輸出按照詞頻從高到低排列的詞及其頻數(shù)。如果需要查看特定詞的頻數(shù),可以使用freq_dist['word']來獲取該詞的頻數(shù)。

在實際應(yīng)用中,可以使用NLTK庫來處理大量文本數(shù)據(jù)并進行詞頻統(tǒng)計分析,從而幫助理解文本內(nèi)容和特征。

0