溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

怎么使用Python正則表達(dá)式操作文本數(shù)據(jù)的方法

發(fā)布時(shí)間：2021-04-25 14:35:19 來源：億速云閱讀：148 作者：小新欄目：開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)怎么使用Python正則表達(dá)式操作文本數(shù)據(jù)的方法，小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

python有哪些常用庫

python常用的庫：1.requesuts；2.scrapy；3.pillow；4.twisted；5.numpy；6.matplotlib；7.pygama；8.ipyhton等。

什么是正則表達(dá)式

正則表達(dá)式，是簡單地字符的序列，可指定特定的搜索模式。正則表達(dá)式已存在很長一段時(shí)間，并且它本身就是計(jì)算機(jī)科學(xué)的一個(gè)領(lǐng)域。

在 Python中，使用Python的內(nèi)置re模塊處理正則表達(dá)式操作。在本節(jié)中，我將介紹創(chuàng)建正則表達(dá)式并使用它們的基礎(chǔ)知識(shí)。您可以使用以下步驟實(shí)現(xiàn)正則表達(dá)式：

指定模式字符串。
將模式字符串編譯為正則表達(dá)式對(duì)象。
使用正則表達(dá)式對(duì)象在字符串中搜索模式。
可選：從字符串中提取匹配的模式。

編寫和使用正則表達(dá)式

在Python中創(chuàng)建正則表達(dá)式的第一步是導(dǎo)入re 模塊：

import re

Python正則表達(dá)式使用模式字符串表示，模式字符串是指定所需搜索模式的字符串。在最簡單的形式中，模式字符串只能由字母，數(shù)字和空格組成。以下模式字符串表示精確字符序列的搜索查詢。您可以將每個(gè)角色視為一個(gè)單獨(dú)的模式。在后面的例子中，我將討論更復(fù)雜的模式：

import re

pattern_string = "this is the pattern"

下一步是將模式字符串處理為Python可以使用的對(duì)象，以便搜索模式。這是使用re模塊的compile（）方法完成的。的編譯（）方法將圖案字符串作為參數(shù)并返回一個(gè)正則表達(dá)式對(duì)象：

import re

pattern_string = "this is the pattern" regex = re.compile(pattern_string)

獲得正則表達(dá)式對(duì)象后，可以使用它在搜索字符串中搜索模式字符串中指定的模式。搜索字符串只是您要在其中查找模式的字符串的名稱。要搜索模式，可以使用regex對(duì)象的search（）方法，如下所示：

import re

pattern_string = "this is the pattern" regex = re.compile(pattern_string)

match = regex.search("this is the pattern")

如果模式字符串中指定的模式位于搜索字符串中，則search（）方法將返回匹配對(duì)象。否則，它返回None數(shù)據(jù)類型，這是一個(gè)空值。

由于Python相當(dāng)松散地解釋了True和False值，因此搜索函數(shù)的結(jié)果可以像if語句中的布爾值一樣使用，這可能相當(dāng)方便：

....

match = regex.search("this is the pattern") if match:

print("this was a match!")

這個(gè)模式應(yīng)該產(chǎn)生一個(gè)匹配，因?yàn)樗c模式字符串中指定的模式完全匹配。如果在搜索字符串的任意位置找到模式，搜索函數(shù)將生成匹配，如下所示:

....

match = regex.search("this is the pattern") if match:

print("this was a match!")

if regex.search("*** this is the pattern ***"): print("this was not a match!")

if not regex.search("this is not the pattern"): print("this was not a match!")

特殊字符

正則表達(dá)式取決于使用某些特殊字符來表達(dá)模式。因此，除非用于預(yù)期目的，否則不應(yīng)直接使用以下字符：

. ^ $ * + ? {} () [] |

如果確實(shí)需要使用模式字符串中的任何前面提到的字符來搜索該字符，則可以編寫以反斜杠字符開頭的字符。這稱為轉(zhuǎn)義字符。這是一個(gè)例子：

pattern string = "c*b"

## matches "c*b"

如果需要搜索反斜杠字符本身，則使用兩個(gè)反斜杠字符，如下所示：

pattern string = "cb"

## matches "cb"

匹配空格

在模式字符串中的任何位置使用s都匹配空白字符。這比空格字符更通用，因?yàn)樗m用于制表符和換行符：

....

a_space_b = re.compile("asb") if a_space_b.search("a b"):

print("'a b' is a match!")

if a_space_b.search("1234 a b 1234"): print("'1234 a b 1234' is a match")

if a_space_b.search("ab"):

print("'1234 a b 1234' is a match")

匹配字符串的開頭

如果在模式字符串的開頭使用^字符，則只有在搜索字符串的開頭找到模式時(shí)，正則表達(dá)式才會(huì)產(chǎn)生匹配：

....

a_at_start = re.compile("^a") if a_at_start.search("a"):

print("'a' is a match")

if a_at_start.search("a 1234"): print("'a 1234' is a match")

if a_at_start.search("1234 a"): print("'1234 a' is a match")

匹配字符串的結(jié)尾

類似地，如果在模式字符串的末尾使用$符號(hào)，則正則表達(dá)式將僅在模式出現(xiàn)在搜索字符串的末尾時(shí)生成匹配：

....

a_at_end = re.compile("a$") if a_at_end.search("a"):

print("'a' is a match") if a_at_end.search("a 1234"):

print("'a 1234' is a match") if a_at_end.search("1234 a"):

print("'1234 a' is a match")

匹配一系列字符

可以匹配一系列字符而不是一個(gè)字符。這可以為模式增加一些靈活性：

[A-Z] matches all capital letters

[a-z] matches all lowercase letters

[0-9] matches all digits

....

lower_case_letter = re.compile("[a-z]") if lower_case_letter.search("a"):

print("'a' is a match")

if lower_case_letter.search("B"): print("'B' is a match")

if lower_case_letter.search("123 A B 2"): print("'123 A B 2' is a match")

digit = re.compile("[0-9]") if digit.search("1"):

print("'a' is a match") if digit.search("342"):

print("'a' is a match") if digit.search("asdf abcd"):

print("'a' is a match")

匹配幾種模式中的任何一種

如果存在構(gòu)成匹配的固定數(shù)量的模式，則可以使用以下語法組合它們：

(||)

以下a_or_b正則表達(dá)式將匹配任何字符或ab字符的字符串：

....

a_or_b = re.compile("(a|b)") if a_or_b.search("a"):

print("'a' is a match") if a_or_b.search("b"):

print("'b' is a match") if a_or_b.search("c"):

print("'c' is a match")

匹配序列而不是僅匹配一個(gè)字符

如果+字符位于另一個(gè)字符或模式之后，則正則表達(dá)式將匹配該模式的任意長序列。這非常有用，因?yàn)樗梢院苋菀椎乇磉_(dá)可以是任意長度的單詞或數(shù)字。

將模式放在一起

通過一個(gè)接一個(gè)地組合圖案串可以產(chǎn)生更復(fù)雜的圖案。在下面的示例中，我創(chuàng)建了一個(gè)正則表達(dá)式，用于搜索嚴(yán)格后跟單詞的數(shù)字。生成正則表達(dá)式的模式字符串由以下內(nèi)容組成：

與數(shù)字序列匹配的模式字符串：[0-9]+與空白字符匹配的模式字符串：s與字母序列匹配的模式字符串：[az] +

與字符串結(jié)尾或空格字符匹配的模式字符串：（s | $）

....

number_then_word = re.compile("[0-9]+s[a-z]+(s|$)")

正則表達(dá)式split（）函數(shù)

Python中的Regex 對(duì)象也有一個(gè)split（）方法。split方法將搜索字符串拆分為子字符串?dāng)?shù)組。所述分裂發(fā)生在沿著其中該圖案被識(shí)別的字符串中的每個(gè)位置。結(jié)果是在模式的實(shí)例之間出現(xiàn)的字符串?dāng)?shù)組。如果模式出現(xiàn)在搜索字符串的開頭或結(jié)尾，則分別在結(jié)果數(shù)組的開頭或結(jié)尾包含一個(gè)空字符串：

....

print(a_or_b.split("123a456b789")) print(a_or_b.split("a1b"))

關(guān)于“怎么使用Python正則表達(dá)式操作文本數(shù)據(jù)的方法”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，使各位可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，請(qǐng)把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何使用python制作一個(gè)為hex文件增加版本號(hào)的腳本
下一篇新聞：
怎么利用Python scipy.signal.filtfilt() 實(shí)現(xiàn)信號(hào)濾波

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼