溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

發(fā)布時(shí)間:2022-08-04 09:52:45 來(lái)源:億速云 閱讀:161 作者:iii 欄目:開(kāi)發(fā)技術(shù)

這篇文章主要介紹了Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析的相關(guān)知識(shí),內(nèi)容詳細(xì)易懂,操作簡(jiǎn)單快捷,具有一定借鑒價(jià)值,相信大家閱讀完這篇Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析文章都會(huì)有所收獲,下面我們一起來(lái)看看吧。

正則表達(dá)式概述

正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一個(gè)字符串是否與某種模式匹配。 Python 自1.5版本起增加了re 模塊,它提供 Perl 風(fēng)格的正則表達(dá)式模式。 re 模塊使 Python 語(yǔ)言擁有全部的正則表達(dá)式功能。正則表達(dá)式是一個(gè)強(qiáng)大的字符處理工具,其本質(zhì)是一個(gè)字符序列,可以方便檢查一個(gè)字符串是否與我們定義的字符序列的某種模式相匹配

在python中,正則表達(dá)式可以通過(guò)import re模塊使用,本文將全面介紹正則表達(dá)式的使用方法

寫(xiě)在正則表達(dá)式里面的普通字符都是表示:直接匹配他們;

但是有一些特殊字符,術(shù)語(yǔ)metacharacters(元字符)。它們出現(xiàn)在正則表達(dá)式字符串中,不上表示直接匹配他們,而是表達(dá)一些特別含義

這些特殊的元字符包括下面這些:

. * + ? \ [ ] ^ $ { } | ( )

我們來(lái)分別介紹一下他們的含義:

1、點(diǎn)-匹配所有字符

. 表示要匹配除了換行符之外的任何單個(gè)字符

比如,你要從下面的文本中,選擇所有的顏色。

蘋(píng)果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的

也就是要找到所有以色結(jié)尾,并且包括前面的一個(gè)字符的詞語(yǔ)。也就可以這樣寫(xiě)正則表達(dá)式.色

其中點(diǎn)代表了任意一個(gè)字符,注意是任一個(gè)字符。

.色合起來(lái)就是表示要找到任意一個(gè)字符后面是色這個(gè)字,合起來(lái)兩個(gè)字的字符串
范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''蘋(píng)果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的'''
p=re.compile(r'.色')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

2、星號(hào)-重復(fù)匹配任意次

*-表示匹配前面的子表達(dá)式任意次,包括0次

比如,你要從下面的文本中,選擇每行逗號(hào)后面的字符串內(nèi)容,包括逗號(hào)本身。注意,這里的逗號(hào)是文本的逗號(hào)。

蘋(píng)果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,

就可以這樣寫(xiě)正則表達(dá)式,.*。

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''蘋(píng)果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,'''
p=re.compile(r',.*')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

這樣就包括逗號(hào)在內(nèi)的后面的字符串都匹配進(jìn)來(lái)了

3、加號(hào)-重復(fù)匹配多次

+表示匹配前面的子表達(dá)式一次或多次,不包括0次

比如,還是上面的例子,你要從文本中,選擇每行后面的字符串,包括逗號(hào)本身。但是添加一個(gè)條件,如果逗號(hào)后面沒(méi)有內(nèi)容,就不要選擇了。

下面的文本中最后一行逗號(hào)后面沒(méi)有內(nèi)容,就不要選擇了

蘋(píng)果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,

就可以這樣寫(xiě)正則表達(dá)式,.+

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''蘋(píng)果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,'''
p=re.compile(r',.+')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

這樣最后一行逗號(hào)后面沒(méi)有內(nèi)容,所以最后一行也就不會(huì)匹配

4、 花括號(hào)-匹配指定次數(shù)

花括號(hào)表示前面的字符匹配指定的次數(shù)

比如,下面文本

紅彤彤,綠油油,黑乎乎,綠油油油油

表達(dá)式油{3,4}就表示匹配連續(xù)的油字至少3次,至多4次

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''紅彤彤,綠油油,黑乎乎,綠油油油油'''
p=re.compile(r'綠油{3,4}')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

這里就匹配綠后面匹配油至少3次,至多4次的字符串

5、 問(wèn)號(hào)-貪婪模式和非貪婪模式

我們要把下面的字符串中的所有html標(biāo)簽提取出來(lái)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

得到這樣一個(gè)列表

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

很容易想到使用正則表達(dá)式<.*>

寫(xiě)出如下代碼

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*>')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
print(p.findall(source))

但是運(yùn)行結(jié)果,卻是把整個(gè)字符串全部匹配上了

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

怎么回事?原來(lái)在正則表達(dá)式中,&rsquo;*&rsquo;,&rsquo;+&rsquo;,&rsquo;?'都是貪婪的,使用他們時(shí),會(huì)盡可能多的匹配內(nèi)容,所以,<.*>中的星號(hào)(表示任意次數(shù)的重復(fù)),一直匹配到了字符串最后</tlitle>里面同樣符合匹配模式。

為了解決整個(gè)問(wèn)題,就需要使用非貪婪模式,也就是在星號(hào)后面加上?,變成這樣<.*?>

代碼改為

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*?>')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
print(p.findall(source))

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

這樣就單獨(dú)去匹配出來(lái)了每一個(gè)標(biāo)簽

6、方括號(hào)-匹配幾個(gè)字符之一

方括號(hào)表示要匹配某幾種類(lèi)型字符。

比如

[abc]可以匹配a,b,c里面的任意一個(gè)字符。等價(jià)于[a-c]

a-c中間的-表示一個(gè)范圍從a到c

如果你想匹配所有小寫(xiě)字母,可以使用[a-z]

一些元字符在方括號(hào)內(nèi)便失去了魔法,變得和普通字符一樣了。

比如

[akm.]匹配a k m .里面的任意一個(gè)字符

在這里. 在括號(hào)不再表示匹配任意字符了,而就是表示匹配.這個(gè)字符

例如:

實(shí)例描述
[pP]ython匹配“Python”或者“python”
rub[ye]匹配“ruby”或者“rube”

7、起始位置和單行、多行模式

^表示匹配文本的起始位置

正則表達(dá)式可以設(shè)定單行模式和多行模式

如果是單行模式,表示匹配整個(gè)文本的開(kāi)頭位置。

如果是多行模式,表示匹配文本每行的開(kāi)頭位置。

比如,下面的文本中,每行最前面的數(shù)字表示水果的編號(hào),最后的數(shù)字表示價(jià)格

001-蘋(píng)果價(jià)格-60,
002-橙子價(jià)格-70,
003-香蕉價(jià)格-80,

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''001-蘋(píng)果-60
002-橙子-70
003-香蕉-80'''
p=re.compile(r'^\d+')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
for one in p.findall(source):
    print(one)

運(yùn)行結(jié)果如下

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

如果去掉complie的第二個(gè)參數(shù)re.M,運(yùn)行結(jié)果如下

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

就只進(jìn)行一行匹配,

因?yàn)樵趩涡心J较?,^只會(huì)匹配整個(gè)文本的開(kāi)頭位置

$表示匹配文本的結(jié)束位置

如果是單行模式,表示匹配整個(gè)文本的結(jié)束位置。

如果是多行模式,表示匹配文本每行的結(jié)束位置。

比如,下面的文本中,每行最前面的數(shù)字表示水果的編號(hào),最后的數(shù)字表示價(jià)格

001-蘋(píng)果價(jià)格-60,
002-橙子價(jià)格-70,
003-香蕉價(jià)格-80,

如果我們要提取所有的水果編號(hào),用這樣的正則表達(dá)式\d+$

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''001-蘋(píng)果-60
002-橙子-70
003-香蕉-80'''
p=re.compile(r'^\d+$',re.M)#re.M進(jìn)行多行匹配
for one in p.findall(source):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

成功匹配到每行最后的價(jià)格

8、括號(hào)-組選擇

主括號(hào)稱之為正則表達(dá)式的組選擇。是從正則表達(dá)式匹配的內(nèi)容里面扣取出其中的某些部分

前面,我們有個(gè)例子,從下面的文本中,選擇每行逗號(hào)前面的字符串,也包括逗號(hào)本身。

蘋(píng)果,蘋(píng)果是綠色的
橙子,橙子是橙色的
香蕉,香蕉是黃色的

就可以這樣寫(xiě)正則表達(dá)式個(gè)^.*,。

但是,如果我們要求不要包括逗號(hào)呢?

當(dāng)然不能直接這樣寫(xiě)^.*

因?yàn)樽詈蟮亩禾?hào)是特征所在,如果去掉它,就沒(méi)法找逗號(hào)前面的了。

但是把逗號(hào)放在正則表達(dá)式中,又會(huì)包含逗號(hào)。

解決問(wèn)題的方法就是使用組選擇符:括號(hào)。

我們這樣寫(xiě)^(.*),

我們把要從整個(gè)表達(dá)式中提取的部分放在括號(hào)中,這樣水果的名字就被單獨(dú)的放在組group中了。

對(duì)應(yīng)的Python代碼如下

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''蘋(píng)果,蘋(píng)果是綠色的
橙子,橙子是橙色的
香蕉,香蕉是黃色的'''
p=re.compile(r'^(.*),',re.M)#re.M進(jìn)行多行匹配
for one in p.findall(source):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

這樣我們就可以把,前的字符取出來(lái)了

9、反斜杠-對(duì)元字符的轉(zhuǎn)義

反斜杠\在正則表達(dá)式中有多種用途

比如,我們要在下面的文本中搜索所有點(diǎn)前面的字符串,也包括點(diǎn)本身

蘋(píng)果.是綠色的
橙子.是橙色的
香蕉.是黃色的

如果,我們這樣寫(xiě)正則表達(dá)式.*.,聰明的你肯定發(fā)現(xiàn)不對(duì)勁。

因?yàn)辄c(diǎn)是一個(gè)元字符,直接出現(xiàn)在正則表達(dá)式中,表示匹配任意的單個(gè)字符,不能表示.這個(gè)字符的本身的意思了

怎么辦呢?

如果我們要搜索的內(nèi)容本身就包含元字符,就可以使用反斜杠進(jìn)行轉(zhuǎn)義

這里我們就應(yīng)用這樣的表達(dá)式.*\.

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''蘋(píng)果.是綠色的
橙子.是橙色的
香蕉.是黃色的'''
p=re.compile(r'.*\.')#r表示不要進(jìn)行python語(yǔ)法中對(duì)字符串的轉(zhuǎn)譯
for one in p.findall(source):
    print(one)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

成功匹配!

利用反斜杠還可以匹配某種字符類(lèi)型

反斜杠后面接一些字符,表示匹配某種類(lèi)型的一個(gè)字符

字符功能
\d匹配0~9之間的任意一個(gè)數(shù)字字符,等價(jià)于表達(dá)式[0-9]
\D匹配任意一個(gè)不上0-9之間的數(shù)字字符,等價(jià)于表達(dá)是[^0-9]
\s匹配任意一個(gè)空白字符,包括空格、tab、換行符等、等價(jià)于[\t\n\r\f\v]
\S匹配任意一個(gè)非空白字符,等價(jià)于[^\t\tn\r\f\v]
\w匹配任意一個(gè)文字字符,包括大小寫(xiě)、數(shù)字、下劃線、等于[a-zA-A0-9]
\W匹配任意一個(gè)非文字字符,等價(jià)于表達(dá)式[^a-zA-Z0-9]

反斜杠也可以用在方括號(hào)里面,比如[\s,.]:表示匹配任何空白字符,或者逗號(hào),或者點(diǎn)

10、修飾符-可選標(biāo)志

正則表達(dá)式可以包含一些可選標(biāo)志修飾符來(lái)控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。多個(gè)標(biāo)志可以通過(guò)按位OR(I)它們來(lái)指定。如re.l | re.M被設(shè)置成Ⅰ和M標(biāo)志:

修飾符描述
re.I使匹配對(duì)大小寫(xiě)不敏感
re.L做本地化識(shí)別(locale-aware)匹配
re.M多行匹配,影響^和$
re.S使匹配包括換行在內(nèi)的所有字符
re.U根據(jù)Unicode字符集解析字符。這個(gè)標(biāo)志影響lw,W,Nb,\B.
re.X該標(biāo)志通過(guò)給予你更靈活的格式以便你將正則表達(dá)式寫(xiě)得更易于理解

11、使用正則表達(dá)式切割字符串

字符串對(duì)象的split()方法只適應(yīng)于非常簡(jiǎn)單的字符串分割情形。當(dāng)你需要更加靈活的切割字符串的時(shí)候,就不好用了。

比如,我們需要從下面字符串中提取武將的名字。

我們發(fā)現(xiàn)這些名字之間,有的是分號(hào)隔開(kāi),有的是逗號(hào)隔開(kāi),有的是空格隔開(kāi),而且分割符號(hào)周?chē)€有不定數(shù)量的空格

names =“關(guān)羽;張飛,趙云,馬超,黃忠 李逵”

這時(shí),最好使用正則表達(dá)式里面的split方法:

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
names ="關(guān)羽;張飛,趙云,馬超,黃忠  李逵"
namelist=re.split(r'[;,\s]\s*',names)
print(namelist)

Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析

正則表達(dá)式[;,ls]\s*指定了,分割符為分號(hào)、逗號(hào)、空格里面的任意一種均可,并且該符號(hào)周?chē)梢杂胁欢〝?shù)量的空格。

關(guān)于“Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對(duì)“Python之正則表達(dá)式常用語(yǔ)法實(shí)例分析”知識(shí)都有一定的了解,大家如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI