溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

web中文本數(shù)據(jù)清洗流程的示例分析

發(fā)布時(shí)間:2021-06-08 10:55:26 來(lái)源:億速云 閱讀:134 作者:小新 欄目:web開(kāi)發(fā)

這篇文章主要介紹web中文本數(shù)據(jù)清洗流程的示例分析,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

今天,超過(guò)80%的數(shù)據(jù)是非結(jié)構(gòu)化的。文本數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的必經(jīng)之路。大多數(shù)可用的文本數(shù)據(jù)本質(zhì)上是高度非結(jié)構(gòu)化和嘈雜的,需要更好的見(jiàn)解或建立更好的算法來(lái)處理數(shù)據(jù)。

我們知道,社交媒體數(shù)據(jù)是高度非結(jié)構(gòu)化的,因其非正式的交流,存在包括拼寫(xiě)錯(cuò)誤、語(yǔ)法不好、俚語(yǔ)的使用、諸如URL、停用詞、表達(dá)式等不必要內(nèi)容。

一個(gè)典型的商業(yè)問(wèn)題,假設(shè)你感興趣的是:這是iPhone在粉絲中更受歡迎的特點(diǎn)。下面你已經(jīng)提取了與iPhone相關(guān)的消費(fèi)者意見(jiàn)的一條推特:

下面對(duì)這條推特做文本預(yù)處理:

1、去掉HTML 字符:

從Web獲得的數(shù)據(jù)通常包含許多HTML實(shí)體,如lt;& gt;& &;它嵌入到原始數(shù)據(jù)中。因此,必須擺脫這些實(shí)體。一種方法是通過(guò)使用特定的正則表達(dá)式直接刪除它們。另一種方法是使用適當(dāng)?shù)陌湍K(例如Python的HTMLPARSER),它可以將這些實(shí)體轉(zhuǎn)換成標(biāo)準(zhǔn)的HTML標(biāo)記。例如:& lt;轉(zhuǎn)換為“<”,轉(zhuǎn)換為“&”。

web中文本數(shù)據(jù)清洗流程的示例分析

2、解碼數(shù)據(jù):

這是將信息從復(fù)雜符號(hào)轉(zhuǎn)換為簡(jiǎn)單易懂字符的過(guò)程。文本數(shù)據(jù)可能會(huì)受到不同形式的解碼,如“拉丁語(yǔ)”、“UTF8”等。因此,為了更好地分析,有必要保持完整的數(shù)據(jù)以標(biāo)準(zhǔn)的編碼格式。UTF-8編碼被廣泛接受并推薦使用。

web中文本數(shù)據(jù)清洗流程的示例分析

3、撇號(hào)查找:為了避免文本中的任何詞義消歧,建議在文章中保持適當(dāng)?shù)慕Y(jié)構(gòu),并遵守上下文無(wú)關(guān)文法的規(guī)則。當(dāng)使用撇號(hào)時(shí),消歧的機(jī)會(huì)增加。

For example “it’s is a contraction for it is or it has”.

所有撇號(hào)都應(yīng)該轉(zhuǎn)換成標(biāo)準(zhǔn)詞典??梢允褂盟锌赡艿年P(guān)鍵字的查找表來(lái)消除歧義。

web中文本數(shù)據(jù)清洗流程的示例分析

4、停用詞的去除:當(dāng)數(shù)據(jù)分析需要在字級(jí)上進(jìn)行數(shù)據(jù)驅(qū)動(dòng)時(shí),應(yīng)刪除通常出現(xiàn)的單詞(停用詞)。通過(guò)創(chuàng)建的一個(gè)長(zhǎng)長(zhǎng)的停止詞列表,或者可以使用預(yù)定義的語(yǔ)言特定的庫(kù)。

5、刪除標(biāo)點(diǎn)符號(hào):所有的標(biāo)點(diǎn)符號(hào)應(yīng)根據(jù)優(yōu)先級(jí)來(lái)處理。例如:“,”,“,”,“?”“重要標(biāo)點(diǎn)應(yīng)該保留,而其他標(biāo)點(diǎn)需要?jiǎng)h除。

6、刪除表達(dá)式:文本數(shù)據(jù)(通常是語(yǔ)音轉(zhuǎn)錄)可能包含人類(lèi)的表達(dá),如[笑],[哭],[觀眾暫停]。這些表達(dá)式通常與語(yǔ)音內(nèi)容無(wú)關(guān),因此需要?jiǎng)h除。在這種情況下,簡(jiǎn)單正則表達(dá)式可能是有用的。

7、分裂的附加詞:人在社交論壇中的生成文本數(shù)據(jù),本質(zhì)上是完全非正式的。大多數(shù)推文伴隨著多個(gè)附加詞,例如RayyDay. PrimeCythOrth.等,這些實(shí)體可以用簡(jiǎn)單的規(guī)則和正則表達(dá)式分裂成它們的正常形式.

8、俚語(yǔ)查找:同樣,社交媒體包括大多數(shù)俚語(yǔ)詞匯。這些詞應(yīng)該轉(zhuǎn)換成標(biāo)準(zhǔn)詞來(lái)制作自由文本。像LUV這樣的詞將被轉(zhuǎn)換成愛(ài),Helo到Hello。撇號(hào)查找的類(lèi)似方法可以用來(lái)將俚語(yǔ)轉(zhuǎn)換成標(biāo)準(zhǔn)詞。網(wǎng)上有大量的信息源,它提供了所有可能的俚語(yǔ)的列表,可以用它們作為查找字典來(lái)進(jìn)行轉(zhuǎn)換。

9、規(guī)范詞:有時(shí)詞的格式不正確。例如:“I looooveee you” 應(yīng)為 “I love you”。簡(jiǎn)單的規(guī)則和正則表達(dá)式可以幫助解決這些情況。

10、刪除URL:應(yīng)刪除文本數(shù)據(jù)中的URL和超鏈接,如評(píng)論、評(píng)論和推文。

以上是“web中文本數(shù)據(jù)清洗流程的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

web
AI