您好,登錄后才能下訂單哦!
本篇內(nèi)容介紹了“python可視化數(shù)據(jù)實例分析”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!
我們利用Python里的jieba分詞、matplotlib模塊分析整篇文章詞匯,并提取詞頻前20的詞語,得到結(jié)果如下:
確實,涉及到兩位明星的詞語是最多的,其次是阿麗姐(不知道是不是作者的化身)。贊贊在其中是女性角色,難怪粉絲們暴跳如雷。這樣分析,似乎看不出太多的內(nèi)含,我們把維度細化一點。
從敏感角度看,這個詞匯頻率會是怎樣的呢?由于純潔的我實在是接受不了,因此打了點馬賽克(如果這樣你都能猜出是什么詞....嗯...建議多看看天線寶寶):
經(jīng)過統(tǒng)計,文章出現(xiàn)一共20367個非黃色詞匯,284個涉黃詞匯。涉黃詞匯出現(xiàn)概率約為1.4%,也就是說每100個詞匯里就會出現(xiàn)一次黃詞,這個概率相當(dāng)高了,感覺《挪威的森林》略遜一籌,《失樂園》大可一戰(zhàn)。
最后,來個詞云結(jié)束這一部分:
我們使用Lstm,按行對整片文章進行分析,看看這些句子呈現(xiàn)的情感特點是否有某邊倒的傾向,其中,當(dāng)分為正面信度大于0.7,或負面信度大于0.7的時候分別分到正面分類和負面分類,其他情況為中性:
得到結(jié)果如下:
>>{'neg': 988, 'pos': 332, 'mid': 471}
負面的句子占了55%,文章負面情緒較多。負面情緒只是衡量一篇文章的情感傾向,無法說明什么。
接下來才是關(guān)鍵,識別句子的涉黃程度,同樣地,設(shè)定概率置信度大于0.7的時候進行分類:
獲得結(jié)果如下:
>> {'porn': 280, 'not_porn': 1511}
“python可視化數(shù)據(jù)實例分析”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。