溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾

發(fā)布時間:2021-12-07 10:55:38 來源:億速云 閱讀:132 作者:柒染 欄目:大數(shù)據(jù)

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

截至2020年12月,我國手機網(wǎng)民規(guī)模達9.86億。移動互聯(lián)網(wǎng)時代,個人信息和用戶數(shù)據(jù)成為重要的商業(yè)資源。一些企業(yè)和個人為牟取經(jīng)濟利益,導(dǎo)致垃圾短信頻發(fā),讓人們不勝其擾。保護私生活安寧已經(jīng)成為一項迫切需要解決的社會問題。

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾

垃圾短信

垃圾短信是指未經(jīng)用戶同意向用戶發(fā)送的用戶不愿意收到的短信息,或用戶不能根據(jù)自己的意愿拒絕接收的短信息,主要包含以下屬性:(一)未經(jīng)用戶同意向用戶發(fā)送的商業(yè)類、廣告類等短信息; (二)其他違反行業(yè)自律性規(guī)范的短信息。

垃圾短信泛濫,已經(jīng)嚴(yán)重影響到人們正常生活、運營商形象乃至社會穩(wěn)定。如偽基站可以給三公里內(nèi)10萬手機發(fā)信?,F(xiàn)用戶可以使用手機管家進行攔截此類短信。

用戶迫切的需要一種快速、有效的垃圾短信識別方法。通過垃圾短信的精準(zhǔn)識別,以完善用戶的通訊環(huán)境,為有關(guān)部門提供有效依據(jù),維護運營商利益。數(shù)據(jù)挖掘平臺Smartbi也不甘示弱,為了能盡快解決垃圾短信的問題,Smartbi利用Smartbi Mining進行建模,使用隨機森林文本分類算法建立合理的短信識別模型,對垃圾短信進行識別,解決運營商和手機用戶的困擾。

Smartbi mining數(shù)據(jù)挖掘平臺將操作分為四個步驟:

1. 數(shù)據(jù)獲取,獲取所需數(shù)據(jù)集;

2. 數(shù)據(jù)預(yù)處理,對數(shù)據(jù)進行文本中文分詞、停用詞過濾處理等;

3. 模型構(gòu)建與評價,構(gòu)建隨機森林模型,并建立評價指標(biāo)精確率、召回率、F1值對模型分類效果進行評價。

4. 分析結(jié)果,總結(jié)和建議。

1數(shù)據(jù)獲取

目前,某運營商已經(jīng)積累了大量的垃圾短信數(shù)據(jù)。經(jīng)過加工處理數(shù)據(jù)如圖3-2所示。本案例收集了295755條短信文本數(shù)據(jù),字段說明見表3-1。

表3-1 字段說明

 大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾


圖3-2 數(shù)據(jù)集

為了方便識別字段含義,這里接入一個元數(shù)據(jù)編輯節(jié)點取別名,如圖3-3所示。

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾 

圖3-3 元數(shù)據(jù)編輯

2 數(shù)據(jù)預(yù)處理

2.1、分詞

中文分詞是指將一整段文字切分為具有最小語義的詞條信息,即以詞作為基本單元,使用計算機自動對中文文本進行詞語的切分,將文本數(shù)據(jù)轉(zhuǎn)化為機器可識別的形式。英文單詞之間是由空格作為分界符的,中文則是由字為基本書寫單位,詞語之間沒有明顯的區(qū)分符,因此,中文分詞是中文信息處理的基礎(chǔ)與關(guān)鍵。分詞結(jié)果的準(zhǔn)確性,對后續(xù)文本挖掘有著重要影響。如在進行特征的選擇時,不同的分詞效果將影響詞語在文本中的重要性,從而影響特征的選擇。

這里接入一個分詞節(jié)點將text列進行分詞,_c2_seg為分詞后的字符串型結(jié)果,_c2_seg_words為分詞后的WrappedArray類型結(jié)果,分詞輸出結(jié)果如圖3-4所示。

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾 


2.3、TF-IDF

由于文本數(shù)據(jù)無法直接用于建模,因此需要將文本表示成計算機能夠直接處理的形式,即文本數(shù)字化。TF-IDF算法即將文本數(shù)據(jù)進行數(shù)值化。TF意思是詞頻,IDF意思是逆文本頻率指數(shù),用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF值越高,說明該詞越重要。

我們接入TF-IDF算法進行抽取變換,輸出結(jié)果如圖3-6所示。

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾 

3 構(gòu)建模型

本案例采用隨機森林算法模型,通過特征選擇_c2_seg_words_filtered_idf列,目標(biāo)標(biāo)簽為target,整體模型訓(xùn)練預(yù)測如圖3-8所示。

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾

圖3-8 構(gòu)建模型


4 模型評價

通過評估節(jié)點接入,如圖3-8所示,評估結(jié)果如圖3-10所示。

大數(shù)據(jù)中Smartbi怎樣解決垃圾短信帶來的困擾 

分析結(jié)果得出F1分?jǐn)?shù)達到0.91,說明該模型效果比較不錯的。

該模型能較好地識別出垃圾短信,有效進行垃圾短信過濾,解決運營商及用戶的困擾。

Smartbi數(shù)據(jù)挖掘平臺這個案例運用短信數(shù)據(jù),對垃圾短信進行識別。主要實現(xiàn)了垃圾短信的精確識別,通過獲得以上挖掘結(jié)果,為相關(guān)運營商提供一種解決垃圾短信過濾問題的方案。

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI