Python實(shí)現(xiàn)購(gòu)物評(píng)論文本情感分析操作

發(fā)布時(shí)間：2021-04-13 10:02:15 來源：億速云閱讀：357 作者：小新欄目：開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)Python實(shí)現(xiàn)購(gòu)物評(píng)論文本情感分析操作，小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

具體如下：

昨晚上發(fā)現(xiàn)了snownlp這個(gè)庫(kù)，很開心。先說說我開心的原因。我本科畢業(yè)設(shè)計(jì)做的是文本挖掘，用R語言做的，發(fā)現(xiàn)R語言對(duì)文本處理特別不友好，沒有很多強(qiáng)大的庫(kù)，特別是針對(duì)中文文本的，加上那時(shí)候還沒有學(xué)機(jī)器學(xué)習(xí)算法。所以很頭疼，后來不得已用了一個(gè)可視化的軟件RostCM，但是一般可視化軟件最大的缺點(diǎn)是無法調(diào)參，很死板，準(zhǔn)確率并不高?，F(xiàn)在研一，機(jī)器學(xué)習(xí)算法學(xué)完以后，又想起來要繼續(xù)學(xué)習(xí)文本挖掘了。所以前半個(gè)月開始了用python進(jìn)行文本挖掘的學(xué)習(xí)，很多人都推薦我從《python自然語言處理》這本書入門，學(xué)習(xí)了半個(gè)月以后，可能本科畢業(yè)設(shè)計(jì)的時(shí)候有些基礎(chǔ)了，再看這個(gè)感覺沒太多進(jìn)步，并且這里通篇將nltk庫(kù)進(jìn)行英文文本挖掘的，英文文本挖掘跟中文是有很大差別的，或者說學(xué)完英文文本挖掘，再做中文的，也是完全懵逼的。所以我停了下來，覺得太沒效率了。然后我在網(wǎng)上查找關(guān)于python如何進(jìn)行中文文本挖掘的文章，最后找到了snownlp這個(gè)庫(kù)，這個(gè)庫(kù)是國(guó)人自己開發(fā)的python類庫(kù)，專門針對(duì)中文文本進(jìn)行挖掘，里面已經(jīng)有了算法，需要自己調(diào)用函數(shù)，根據(jù)不同的文本構(gòu)建語料庫(kù)就可以，真的太方便了。我只介紹一下這個(gè)庫(kù)具體應(yīng)用，不介紹其中的有關(guān)算法原理，因?yàn)樗惴ㄔ砜梢宰约喝W(xué)習(xí)。因?yàn)槲以趯W(xué)習(xí)這個(gè)庫(kù)的時(shí)候，我查了很多資料發(fā)現(xiàn)很少或者基本沒有寫這個(gè)庫(kù)的實(shí)例應(yīng)用，很多都是轉(zhuǎn)載官網(wǎng)對(duì)這個(gè)庫(kù)的簡(jiǎn)介，所以我記錄一下我今天的學(xué)習(xí)。

首先簡(jiǎn)單介紹一下這個(gè)庫(kù)可以進(jìn)行哪些文本挖掘。snownlp主要可以進(jìn)行中文分詞（算法是Character-Based Generative Model）、詞性標(biāo)注（原理是TnT、3-gram 隱馬）、情感分析（官網(wǎng)木有介紹原理，但是指明購(gòu)物類的評(píng)論的準(zhǔn)確率較高，其實(shí)是因?yàn)樗恼Z料庫(kù)主要是購(gòu)物方面的，可以自己構(gòu)建相關(guān)領(lǐng)域語料庫(kù)，替換原來的，準(zhǔn)確率也挺不錯(cuò)的）、文本分類（原理是樸素貝葉斯）、轉(zhuǎn)換拼音、繁體轉(zhuǎn)簡(jiǎn)體、提取文本關(guān)鍵詞（原理是TextRank）、提取摘要（原理是TextRank）、分割句子、文本相似（原理是BM25）。官網(wǎng)還有更多關(guān)于該庫(kù)的介紹，在看我這個(gè)文章之前，建議先看一下官網(wǎng)，里面有最基礎(chǔ)的一些命令的介紹。官網(wǎng)鏈接：https://pypi.python.org/pypi/snownlp/0.11.1。

PS：可以直接使用pip install snownlp 命令進(jìn)行snownlp模塊的快速安裝（注：這里要求pip版本至少為18.0）。

下面正式介紹實(shí)例應(yīng)用。主要是中文文本的情感分析，我今天從京東網(wǎng)站采集了249條關(guān)于筆記本的評(píng)論文本作為練習(xí)數(shù)據(jù)，由于我只是想練習(xí)一下，沒采集更多。然后人工標(biāo)注每條評(píng)論的情感正負(fù)性，情感正負(fù)性就是指該條評(píng)論代表了評(píng)論者的何種態(tài)度，是褒義還是貶義。以下是樣例

Python實(shí)現(xiàn)購(gòu)物評(píng)論文本情感分析操作

其中-1表示貶義，1表示褒義。由于snownlp全部是unicode編碼，所以要注意數(shù)據(jù)是否為unicode編碼。因?yàn)槭莡nicode編碼，所以不需要去除中文文本里面含有的英文，因?yàn)槎紩?huì)被轉(zhuǎn)碼成統(tǒng)一的編碼（補(bǔ)充一下，關(guān)于編碼問題，我還是不特別清楚，所以這里不多講，還請(qǐng)對(duì)這方面比較熟悉的伙伴多多指教）。軟件本身默認(rèn)的是Ascii編碼，所以第一步先設(shè)置軟件的默認(rèn)編碼為utf-8，代碼如下：

1、改變軟件默認(rèn)編碼

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

2、然后準(zhǔn)備數(shù)據(jù)

import pandas as pd #加載pandas
text=pd.read_excel(u'F:/自然語言處理/評(píng)論文本.xlsx',header=0) #讀取文本數(shù)據(jù)
text0=text.iloc[:,0] #提取所有數(shù)據(jù)
text1=[i.decode('utf-8') for i in text0] #上一步提取數(shù)據(jù)不是字符而是object，所以在這一步進(jìn)行轉(zhuǎn)碼為字符

3、訓(xùn)練語料庫(kù)

from snownlp import sentiment #加載情感分析模塊
sentiment.train('E:/Anaconda2/Lib/site-packages/snownlp/sentiment/neg.txt', 'E:/Anaconda2/Lib/site-packages/snownlp/sentiment/pos.txt') #對(duì)語料庫(kù)進(jìn)行訓(xùn)練，把路徑改成相應(yīng)的位置。我這次練習(xí)并沒有構(gòu)建語料庫(kù)，用了默認(rèn)的，所以把路徑寫到了sentiment模塊下。
sentiment.save('D:/pyscript/sentiment.marshal')#這一步是對(duì)上一步的訓(xùn)練結(jié)果進(jìn)行保存，如果以后語料庫(kù)沒有改變，下次不用再進(jìn)行訓(xùn)練，直接使用就可以了，所以一定要保存，保存位置可以自己決定，但是要把`snownlp/seg/__init__.py`里的`data_path`也改成你保存的位置，不然下次使用還是默認(rèn)的。

4、進(jìn)行預(yù)測(cè)

from snownlp import SnowNLP
senti=[SnowNLP(i).sentiments for i in text1] #遍歷每條評(píng)論進(jìn)行預(yù)測(cè)

5、進(jìn)行驗(yàn)證準(zhǔn)確率

預(yù)測(cè)結(jié)果為positive的概率，positive的概率大于等于0.6，我認(rèn)為可以判斷為積極情感，小于0.6的判斷為消極情感。所以以下將概率大于等于0.6的評(píng)論標(biāo)簽賦為1，小于0.6的評(píng)論標(biāo)簽賦為-1，方便后面與實(shí)際標(biāo)簽進(jìn)行比較。

newsenti=[]
for i in senti:
 if (i>=0.6):
   newsenti.append(1)
 else:
   newsenti.append(-1)
text['predict']=newsenti #將新的預(yù)測(cè)標(biāo)簽增加為text的某一列，所以現(xiàn)在text的第0列為評(píng)論文本，第1列為實(shí)際標(biāo)簽，第2列為預(yù)測(cè)標(biāo)簽
counts=0
for j in range(len(text.iloc[:,0])): #遍歷所有標(biāo)簽，將預(yù)測(cè)標(biāo)簽和實(shí)際標(biāo)簽進(jìn)行比較，相同則判斷正確。
  if text.iloc[j,2]==text.iloc[j,1]:
    counts+=1
print u"準(zhǔn)確率為:%f"%(float(counts)/float(len(text)))#輸出本次預(yù)測(cè)的準(zhǔn)確率

運(yùn)行結(jié)果為：

Python實(shí)現(xiàn)購(gòu)物評(píng)論文本情感分析操作

準(zhǔn)確率還可以，但還不算高，原因是我考慮時(shí)間原因，并且我只是練習(xí)一下，所以沒有自己構(gòu)建該領(lǐng)域的語料庫(kù)，如果構(gòu)建了相關(guān)語料庫(kù)，替換默認(rèn)語料庫(kù)，準(zhǔn)確率會(huì)高很多。所以語料庫(kù)是非常關(guān)鍵的，如果要正式進(jìn)行文本挖掘，建議要構(gòu)建自己的語料庫(kù)。在沒有構(gòu)建新的語料庫(kù)的情況下，這個(gè)83.9357%的準(zhǔn)確率還是不錯(cuò)了。

關(guān)于“Python實(shí)現(xiàn)購(gòu)物評(píng)論文本情感分析操作”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，使各位可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，請(qǐng)把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

Python實(shí)現(xiàn)購(gòu)物評(píng)論文本情感分析操作

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽