怎么使用python進(jìn)行文本預(yù)處理和提取特征

發(fā)布時(shí)間：2021-04-25 10:12:56 來(lái)源：億速云閱讀：215 作者：小新欄目：開發(fā)技術(shù)

小編給大家分享一下怎么使用python進(jìn)行文本預(yù)處理和提取特征，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

Python主要用來(lái)做什么

Python主要應(yīng)用于：1、Web開發(fā)；2、數(shù)據(jù)科學(xué)研究；3、網(wǎng)絡(luò)爬蟲；4、嵌入式應(yīng)用開發(fā)；5、游戲開發(fā)；6、桌面應(yīng)用開發(fā)。

如下所示：

<strong><span >文本過濾</span></strong>

result = re.sub(r'[^\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)

result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", content)#只保留中文和標(biāo)點(diǎn)和數(shù)字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和數(shù)字

文本去除兩個(gè)以上空格

content=re.sub(r'\s{2,}', '', content)

bas4編碼變成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。？！，、；：“ ”‘ '（ ）《 》〈 〉]', "", decodestr.decode())#只保留中文和標(biāo)點(diǎn)和數(shù)字 
 return result

文本去停用詞

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一個(gè)詞典，來(lái)彌補(bǔ)結(jié)巴分詞中沒有的詞語(yǔ)，從而保證更高的正確率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#關(guān)鍵詞提取，在這里對(duì)jieba的tfidf.py進(jìn)行了修改 
 return keyWord

看完了這篇文章，相信你對(duì)“怎么使用python進(jìn)行文本預(yù)處理和提取特征”有了一定的了解，如果想了解更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細(xì)節(jié)

怎么使用python進(jìn)行文本預(yù)處理和提取特征

Python主要用來(lái)做什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽