溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python中re模塊怎么用

發(fā)布時(shí)間:2021-09-24 11:05:18 來源:億速云 閱讀:144 作者:小新 欄目:開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)Python中re模塊怎么用,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

    Python——re模塊

     簡介

    定義:re模塊稱為正則表達(dá)式;

    作用:創(chuàng)建一個(gè)"規(guī)則表達(dá)式",用于驗(yàn)證和查找符合規(guī)則的文本,廣泛用于各種搜索引擎、賬戶密碼的驗(yàn)證等;

    預(yù)定義字符

    """
    \d	匹配所有的十進(jìn)制數(shù)字	0-9
    \D	匹配所有的非數(shù)字,包含下劃線
    \s	匹配所有空白字符(空格、TAB等)
    \S	匹配所有非空白字符,包含下劃線
    \w	匹配所有字母、漢字、數(shù)字	a-z A-Z 0-9
    \W	匹配所有非字母、漢字、數(shù)字,包含下劃線
    """

    特殊字符

    1、$:匹配一行的結(jié)尾(必須放在正則表達(dá)式最后面)

    2、^:匹配一行的開頭(必須放在正則表達(dá)式最前面)

    3、*:前面的字符可以出現(xiàn)0次或多次(0~無限)

    4、+:前面的字符可以出現(xiàn)1次或多次(1~無限)

    5、?:變"貪婪模式"為"勉強(qiáng)模式",前面的字符可以出現(xiàn)0次或1次

    6、.:匹配除了換行符"\n"之外的任意單個(gè)字符

    7、|:兩項(xiàng)都進(jìn)行匹配

    8、[ ]:代表一個(gè)集合,有如下三種情況

    • [abc]:能匹配其中的單個(gè)字符

    • [a-z0-9]:能匹配指定范圍的字符,可取反(在最前面加入^)

    • [2-9] [1-3]:能夠做組合匹配

    9、{ }:用于標(biāo)記前面的字符出現(xiàn)的頻率,有如下情況:

    • {n,m}:代表前面字符最少出現(xiàn)n次,最多出現(xiàn)m次

    • {n,}:代表前面字符最少出現(xiàn)n次,最多不受限制

    • {,m}:代表前面字符最多出現(xiàn)n次,最少不受限制

    • {n}:前面的字符必須出現(xiàn)n次

    反斜杠問題

    字符串中有反斜杠的,需要對(duì)反斜杠做轉(zhuǎn)義:

    str = "\\123 223"		# \123 223
    str = r"\123 223"		# \123 223

    在正則表達(dá)式中,我們需要用多個(gè)反斜杠來匹配一個(gè)反斜杠:

    find = re.search('\\\\\w+', str)
    find = re.search(r'\\\w+', str)

    匹配方法

    1、match:在目標(biāo)文本的開頭進(jìn)行匹配

    find = re.math('hello', str1)		# 匹配成功返回匹配對(duì)象hello,不成功返回None

    2、search:在整個(gè)目標(biāo)文本中進(jìn)行匹配

    3、findall:掃描整個(gè)目標(biāo)文本,返回所有與規(guī)則匹配的子串組成的列表,如果沒有匹配的返回空列表

    4、finditer:掃描整個(gè)目標(biāo)文本,返回所有與規(guī)則匹配的子串組成的迭代器

    5、fullmatch:要求目標(biāo)文本要完全匹配規(guī)則,否則返回None

    6、sub:將與規(guī)則匹配的子串替換為其他文本

    str1 = re.sub('\w+', 'aaa', str, count=0)		# count默認(rèn)為0,表示全部替換

    7、split:從與規(guī)則匹配的子串進(jìn)行切割,返回切割后子串組成的列表

    8、匹配對(duì)象的方法(對(duì)匹配到的對(duì)象使用):

    ():分組字符,可以為匹配到的內(nèi)容分組,快速獲取到分組中的數(shù)據(jù)

    • group:用于查看指定分組匹配到的內(nèi)容

    str = '<p>這是一個(gè)<a href="###">文本</a></p>
    find = re.search('<a href="(.+)">(\w+)</a>', str)
    print(find.group())		# 默認(rèn)為0,表示匹配到的全部文本,傳入1時(shí)輸出第一個(gè)分組###
    • groups:返回一個(gè)元組,組內(nèi)為所有匹配到的內(nèi)容(上面案例輸出('###',‘文本'))

    • groupdict:返回一個(gè)字典,包含分組的鍵值對(duì),需要為分組命名

    find = re.search('<a href="(?P<href>.+)">(?P<text>\w+)</a>', str)

    start:返回匹配到的內(nèi)容在文本中的起始索引end:返回匹配到的內(nèi)容在文本中的結(jié)束索引span:返回由起始索引和結(jié)束索引組成的元組

    關(guān)于“Python中re模塊怎么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

    向AI問一下細(xì)節(jié)

    免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

    AI