您好,登錄后才能下訂單哦!
這篇文章主要介紹python網(wǎng)絡(luò)爬蟲中正則表達(dá)式怎么用,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
match()方法從字符串的起始位置開始匹配,該方法有兩個(gè)參數(shù),第一個(gè)是正則表達(dá)式,第二個(gè)是需要匹配的字符串;
re.match(正則表達(dá)式,字符串)
如果該方法匹配成功,返回的是SRE_Match對象,如果未匹配到,則返回None。
返回成功后有兩個(gè)方法,group()方法用來查看匹配到的字符串,span()方法用來輸出匹配的范圍。
import re content = 'Hello_World,123 456' result = re.match('^Hello\w{6}\W\d\d\d\s\d{3}',content) print(result) print(result.group()) print(result.span())
【運(yùn)行結(jié)果】
<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
子字符串匹配
在上述我們匹配到了完整的字符串,但是實(shí)際需求中可能只需要其中的一部分,這時(shí)我們僅需要在要獲取的子字符串匹配時(shí)加上括號即可。
import re content = 'Hello_World,123 456' result = re.match('^Hello\w{6}\W(\d+)\s(\d{3})',content) print(result) print(result.group()) print(result.span()) print(result.group(1)) print(result.group(2))
【運(yùn)行結(jié)果】
<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
123
456
這樣通過加括號的形式,將字符串中的數(shù)字匹配出來。
通用匹配符
.* 其中.用來匹配任意字符(除換行符),*代表前面出現(xiàn)的字符無限次。因此之前的匹配形式可以寫為:
import re content = 'Hello_World,123 456' result = re.match('^Hello\.*456$',content) print(result.group())
【運(yùn)行結(jié)果】
Hello_World,123 456
貪婪匹配和非貪婪匹配
.*匹配是貪婪匹配
.*?是非貪婪匹配
二者的主要區(qū)別是,貪婪匹配盡可能多的去匹配字符,而非貪婪匹配是盡可能少的匹配字符。下列代碼能夠更直觀的了解二者之間的區(qū)別
import re content = 'number 12345678 test' result_1 = re.match('^number.*(\d+).*test$',content) print('貪婪匹配得到的數(shù)字:' + result_1.group(1)) result_2 = re.match('^number.*?(\d+).*test$',content) print('非貪婪匹配得到的數(shù)字:' + result_2.group(1))
【運(yùn)行結(jié)果】
貪婪匹配得到的數(shù)字:8
非貪婪匹配得到的數(shù)字:12345678
大家會有這樣一個(gè)疑問為什么貪婪匹配得到的數(shù)字少,而非貪婪匹配得到的多,這與前面講的不太符合啊。
注意,在匹配的時(shí)候,貪婪匹配是盡可能多的去匹配字符,因此.*就匹配的是' 1234567‘,只留下8給\d+匹配,非貪婪匹配是盡可能少的匹配字符,故.*?匹配的是' ',留下12345678給\d+匹配,就會得到上述結(jié)果。
修飾符
修飾符 | 作用 |
---|---|
re.I | 忽略大小寫進(jìn)行匹配 |
re.L | 做本地化識別匹配 |
re.M | 多行匹配,影響^和$ |
re.S | 使.匹配包含換行符在內(nèi)的所有字符 |
re.U | 根據(jù)Unicode字符集解析字符 |
re.X | 更加靈活的編寫正則表達(dá)式 |
轉(zhuǎn)義匹配
匹配特殊字符時(shí),在其前面加反斜線(\)完成轉(zhuǎn)義匹配。
在匹配時(shí)會掃描整個(gè)字符串,然后返回第一個(gè)成功匹配的結(jié)果。如果將整個(gè)字符串搜索完了之后還是沒有匹配到,則返回None。
與search()不同的是,findall()方法是將返回所有符合正則表達(dá)式匹配的內(nèi)容。返回結(jié)果是一個(gè)列表,列表中的每個(gè)元素都是元組類型。
修改文本內(nèi)容,原理是對要修改的內(nèi)容進(jìn)行替換。
import re temp = "abcdef123ghi456" temp = re.sub("\d+","",temp) print(temp)
【運(yùn)行結(jié)果】
abcdefghi
sub()中的參數(shù)分析,第一個(gè)參數(shù)是正則表達(dá)式匹配要更改的內(nèi)容,第二個(gè)參數(shù)是使用該參數(shù)內(nèi)容進(jìn)行替換,第三個(gè)參數(shù)是要更改的字符串。
將正則字符串編譯成正則表達(dá)式對象,以便在后面的匹配中進(jìn)行復(fù)用。
以上是“python網(wǎng)絡(luò)爬蟲中正則表達(dá)式怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。