溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別

發(fā)布時(shí)間:2021-11-29 09:35:18 來(lái)源:億速云 閱讀:858 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別”吧!

一、引子

現(xiàn)在的很多手機(jī)管理軟件都有垃圾短信攔截的功能,很智能很貼心是不是
嗯~ o( ̄▽ ̄)o
對(duì)于經(jīng)常被垃圾短信騷擾的人來(lái)說(shuō),很是有用。(??????)??
但是很多的攔截軟件在攔截到垃圾短信之后……又發(fā)個(gè)通知提示攔截到了垃圾短信╮(﹀_﹀)╭
好奇心害死貓,你告訴了我你攔截到了垃圾短信,我當(dāng)然想知道你攔截的是什么垃圾短信了╮(╯_╰)╭ 

二、分類與垃圾短信識(shí)別

機(jī)器學(xué)習(xí)按性質(zhì)來(lái)看,可以分為三大類:

  • 分類(監(jiān)督)

  • 回歸(監(jiān)督)

  • 聚類(半監(jiān)督)
    垃圾短信通常用已標(biāo)記的短信數(shù)據(jù),對(duì)未知的短信進(jìn)行判斷,其屬于機(jī)器學(xué)習(xí)中的分類性質(zhì)。
    在Python中有很多機(jī)器學(xué)習(xí)的模塊,比如Sklearn、Tensorflow、Caffe等,可以很方便地調(diào)用一些機(jī)器學(xué)習(xí)的算法。 

三、垃圾短信識(shí)別

嗯,直接上手干……( ̄_, ̄ )
80w訓(xùn)練數(shù)據(jù)集和20w測(cè)試數(shù)據(jù)集均來(lái)源于github上的一位小哥哥,在此謝過(guò)d=====( ̄▽ ̄*)b 

1、數(shù)據(jù)處理

嗯,先看看數(shù)據(jù)長(zhǎng)啥樣:

import pandas as pd
data = pd.read_csv(r"H:\RubbishMessage\data\80w.txt",encoding='utf-8',sep='    ',header=None)
data.head()
 

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別


最后一列為短信的內(nèi)容,倒數(shù)第二列則是短信的類型,0表示正常短信,1表示垃圾短信。
然后,我們對(duì)短信內(nèi)容按照不同的類型(正常短信和垃圾短信)進(jìn)行分割和分詞:

# 垃圾短信import jieba
spam = data[data[1] == 1]
spam[2] = spam[2].map(lambda x:' '.join(jieba.cut(x)))
spam.head()
# 正常短信
normal = data[data[1] == 0] normal[2] = normal[2].map(lambda x:' '.join(jieba.cut(x))) normal.head()
 

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別


分別將不同類型分詞后的短信保存為不同的文件:

spam.to_csv('soam.csv',encoding='utf-8',header=False,index=False,columns=[2])
normal.to_csv('normal.csv',encoding='utf-8',header=False,index=False,columns=[2])
   
2、模型選擇和訓(xùn)練

在此我們沒(méi)有選擇Sklearn或是其他的深度學(xué)習(xí)庫(kù),而是選用NLTK自然語(yǔ)言處理庫(kù)來(lái)進(jìn)行貝葉斯分類。
導(dǎo)入模塊:

import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import PlaintextCorpusReaderimport random
 

加載剛剛導(dǎo)出的短信文件:

加載短信語(yǔ)料庫(kù)
message_corpus = PlaintextCorpusReader('./',['soam.csv','normal.csv'])
all_message = message_corpus.words()
 

定義一個(gè)特征函數(shù),用于生成特征:

def massage_feature(word,num_letter=1):
    return {'feature':word[-num_letter:]}
 

對(duì)短信特征進(jìn)行標(biāo)記提取:

labels_name = ([(massage,'垃圾') for massage in message_corpus.words('soam.csv')]+[(massage,'正常') for massage in message_corpus.words('normal.csv')])
random.seed(7)
random.shuffle(labels_name)
 

訓(xùn)練并預(yù)測(cè)模型

from nltk.classify import accuracy as nltk_accuracy
featuresets = [(massage_feature(n),massage) for (n,massage) in labels_name]
train_set,test_set = featuresets[2000:],featuresets[:2000]
classifier = NaiveBayesClassifier.train(train_set)
 

最后,咱們看看預(yù)測(cè)的準(zhǔn)確率怎么樣:

print('結(jié)果準(zhǔn)確率:',str(100*nltk_accuracy(classifier,test_set))+str('%'))
 

Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別

感謝各位的閱讀,以上就是“Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Python中怎么使用樸素貝葉斯進(jìn)行垃圾短信識(shí)別這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI