溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python使用re模塊實(shí)現(xiàn)信息篩選的方法

發(fā)布時(shí)間：2020-09-24 10:37:01 來源：腳本之家閱讀：168 作者：徐文欄目：開發(fā)技術(shù)

本文實(shí)例講述了Python使用re模塊實(shí)現(xiàn)信息篩選的方法。分享給大家供大家參考，具體如下：

背景

平時(shí)工作中，我們經(jīng)常會(huì)處理大量的元數(shù)據(jù)（Raw Data),而一般的文件編輯器只能一次查詢一個(gè)關(guān)鍵字，這就難以連續(xù)的分析元數(shù)據(jù)，比如分析產(chǎn)品日志文件（log），日志可能包括很多information級(jí)別的信息，這些一般是我們不太關(guān)心的，我們主要關(guān)心的是一些特殊的調(diào)試（Debug）級(jí)別的信息，所以就有必要根據(jù)很多關(guān)鍵字篩選出來日志文件中我們所關(guān)系的信息，這樣篩選出來的日志文件不僅具有連續(xù)性，而且易讀性會(huì)非常好。

解決方案

re是Python自帶的正則表達(dá)式庫(kù)文件，為字符串的匹配篩選提供了極大的便利，本文就是利用re來進(jìn)行日志文件的信息篩選。首先，簡(jiǎn)單來看一下re中的主要函數(shù)：

1. Compile(pattern, flag)：對(duì)正則表達(dá)式進(jìn)行編譯，比檢查語法的正確性。flag是編譯的標(biāo)簽，這里只介紹DOTALL，表示匹配所有的字符，包括新的行。

>>> import re
>>> re.compile('[abc]+')
re.compile('[abc]+')
>>> re.compile(test)
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
NameError: name 'test' is not defined
>>>

2. match(): 從目標(biāo)字符串的開頭來判斷是否與正則表達(dá)式匹配，如果不匹配返回None，反之，返回匹配對(duì)象，包括起始位置，結(jié)束位置，字符串內(nèi)容

>>> import re
>>> test = re.compile('[abc]+')
>>> test.match('dabc')
>>> test.match('babc')
<_sre.SRE_Match object; span=(0, 4), match='babc'>

test是一個(gè)以a或b或c開頭的正則表達(dá)式編譯對(duì)象，而match是從目標(biāo)字符串的開頭進(jìn)行匹配，所以第一個(gè)目標(biāo)字符串“dabc”不符合正則表達(dá)式規(guī)則，所以返回None;第二個(gè)目標(biāo)字符串可以正常匹配輸出匹配對(duì)象（起始位置，匹配內(nèi)容），由于match每次都從目標(biāo)字符串的開頭進(jìn)行匹配，所以如果有匹配字符串，其開始位置始終為0.

3. search：與match功能相近，search會(huì)掃描全目標(biāo)字符串進(jìn)行正則表達(dá)式匹配。

>>> import re
>>> test = re.compile('[abc]+')
>>> test.search('dabc')
<_sre.SRE_Match object; span=(1, 4), match='abc'>
>>>

這時(shí)用search就可以匹配a，b，c開頭的字符串了

4. findall：找出目標(biāo)字符串中所有的匹配字符串，并以列表的形式返回

>>> test = re.compile('\w+@163.com')
>>> test.findall(r"alvin@163.comtest1234@163.comnotvalid@gmail.com")
['alvin@163.com', 'test1234@163.com']

當(dāng)然，re中還有很多其他的函數(shù)可供大家使用，大家可以去查閱python官方文檔。

其次，介紹幾個(gè)正則表達(dá)式常用的符號(hào)：

1. *: 表示匹配其前面字符0或多次
2. .: 表示匹配新行之外的所有字符
3. |: 表示或操作
4. +：表示匹配其前面緊鄰字符一次或多次
5. ?: 表示匹配0或1次

其他的正則表達(dá)式的表示也可去官網(wǎng)文檔查看。

最后，上一下這個(gè)簡(jiǎn)單的篩選程序：

import re
source = 'GCM.txt'
target = 'g2s.txt'
#一級(jí)篩選
raw_compile = re.compile(r"<g2s:g2sMessage.*?</g2s:g2sMessage>",re.DOTALL)
#二級(jí)篩選
messagelevel_compile = re.compile(r"<igtLicensing.*|<g2s:idReader.*",re.DOTALL)
#二級(jí)篩選
egmlevel_compile = re.compile(r"IGT_00012E2335AA.*",re.DOTALL)
def FilterG2SMessage():
  fr = open(source)
  content = fr.read()
  fr.close()
  f = open(target,'w')
  g2sItems = raw_compile.findall(content)
  for g2s in g2sItems:
    iscaredG2S = messagelevel_compile.search(g2s)
    isCaredEGM = egmlevel_compile.search(g2s)
    if iscaredG2S and isCaredEGM:
      f.write(g2s+'\n')
    else:
      pass
  f.close()
FilterG2SMessage()

程序很簡(jiǎn)單，在篩選的過程中大家可以先分析一下篩選的級(jí)別，可以逐級(jí)篩選。

總結(jié)：

re不僅僅提供了正則表達(dá)式的匹配，而且提供了一些批量處理的函數(shù)，比如split，sub，subn等等，這些函數(shù)都可以提高我們對(duì)文件內(nèi)容的快速處理，節(jié)省時(shí)間。

PS：這里再為大家提供2款非常方便的正則表達(dá)式工具供大家參考使用：

JavaScript正則表達(dá)式在線測(cè)試工具：
http://tools.jb51.net/regex/javascript

正則表達(dá)式在線生成工具：
http://tools.jb51.net/regex/create_reg

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題：《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
什么是JSON模塊
下一篇新聞：
什么是python數(shù)據(jù)科學(xué)庫(kù)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<ul id="cucaw"><em id="cucaw"></em></ul>