C++怎么使用正則表達(dá)式

發(fā)布時(shí)間：2022-05-26 13:36:45 來(lái)源：億速云閱讀：231 作者：iii 欄目：開(kāi)發(fā)技術(shù)

今天小編給大家分享一下C++怎么使用正則表達(dá)式的相關(guān)知識(shí)點(diǎn)，內(nèi)容詳細(xì)，邏輯清晰，相信大部分人都還太了解這方面的知識(shí)，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來(lái)了解一下吧。

目

正則表達(dá)式

正則表達(dá)式(regular expression)是一種描述字符序列的方法，是一種極其強(qiáng)大的計(jì)算工具。

C++正則表達(dá)式庫(kù)(RE庫(kù))定義在<regex>中，它包含多個(gè)組件。

RE庫(kù)組件

	解釋
regex	表示有一個(gè)正則表達(dá)式的類
regex_match	將一個(gè)字符序列與一個(gè)正則表達(dá)式匹配
regex_search	尋找第一個(gè)與正則表達(dá)式匹配的子序列
regex_replace	使用給定格式替換一個(gè)正則表達(dá)式
sregex_iterator	迭代器適配器，調(diào)用regex_search來(lái)遍歷一個(gè)string中所有匹配的子串
smatch	容器類，保存在string中搜索的結(jié)果
ssub_match	string中匹配的子表達(dá)式的結(jié)果

正則表達(dá)式的使用

#include <regex>
void test()
{
    //查找不是在字符c之后的ei組合存在的單詞
	string pattern("[^c]ei");
	pattern = "[[:alpha:]]*" + pattern + "[[:alpha:]]*";
	regex r(pattern);
	smatch results;
	string test_str("receipt freind theif receive");
	if (regex_search(test_str, results, r))
		cout << results.str() << endl;//freind
}

regex迭代器類型

上面的程序只能查找第一個(gè)匹配到的單詞，如果想獲得所有匹配，可以使用sregex_iterator。

for (sregex_iterator it(test_str.begin(),test_str.end(),r), end_it;it != end_it;++it) {
		cout << it->str() << endl;
}

輸出：

freind
theif

for循環(huán)中定義了兩個(gè)迭代器，it負(fù)責(zé)尋找匹配的單詞，end_it是一個(gè)空迭代器，起到尾后迭代器的作用。

解引用迭代器會(huì)得到一個(gè)匹配結(jié)果的smatch對(duì)象。

除了得到匹配的smatch對(duì)象以外，還可以得到其上下文。

for (sregex_iterator it(test_str.begin(),test_str.end(),r), end_it;it != end_it;++it) {
	auto pos = it->prefix().length();
	pos = pos > 40 ? pos - 40 : 0;
	cout << it->prefix().str().substr(pos)
		<< "[ " << it->str() << " ]"
		<< it->suffix().str().substr(0, 40)
		<< endl;
}

輸出：

receipt [ freind ] theif receive
[ theif ] receive

使用prefix和suffix函數(shù)可以得到匹配之前和之后的ssub_match對(duì)象。

smatch相關(guān)操作

	解釋
m.ready()	若已通過(guò)regex_search或regex_match設(shè)置了m，則返回true；否則返回false
m.size()	如果匹配失敗，返回0；否則返回最近一次匹配的正則表達(dá)式中子表達(dá)式的數(shù)目
m.empty()	若m.size()==0，返回true
m.prefix()	一個(gè)ssub_match對(duì)象，表示當(dāng)前匹配之前的序列
m.suffix()	一個(gè)ssub_match對(duì)象，表示當(dāng)前匹配之后的部分
m.format()	格式化輸出
m.length(n)	第n個(gè)匹配的子表達(dá)式的大小
m.position(n)	第n個(gè)子表達(dá)式距序列開(kāi)始的距離
m.str(n)	第n個(gè)子表達(dá)式匹配的string
m[n]	對(duì)應(yīng)第n個(gè)子表達(dá)式的ssub_match對(duì)象
m.begin(),m.end()	m中sub_match元素范圍的迭代器
m.cbegin(),m.cend()	m中sub_match元素范圍的常量迭代器

這些操作也適用于cmatch、wsmatch、wcmatch和對(duì)應(yīng)的子匹配對(duì)象。

子表達(dá)式

正則表達(dá)式中的模式通常包含一個(gè)或多個(gè)子表達(dá)式(subexpression)。

一個(gè)子表達(dá)式是模式的一部分，本身也具有意義。

正則表達(dá)式語(yǔ)法同常用小括號(hào)表示子表達(dá)式。

eg: 可以使用子表達(dá)式來(lái)匹配文件擴(kuò)展名

regex r("([[:alnum:]]+)\\.(cpp|cxx|cc)$");

現(xiàn)在模式中有兩個(gè)小括號(hào)表示的子表達(dá)式：

([[:alnum:]]+) 匹配一個(gè)或多個(gè)數(shù)字字母序列
(cpp|cxx|cc) 匹配cpp或cxx或cc等擴(kuò)展名

通過(guò)使用str(n)來(lái)打印子表達(dá)式

if (regex_search(filename, results, r))
		cout << results.str(1) << endl;//打印第一個(gè)子表達(dá)式

參數(shù)0代表整個(gè)對(duì)應(yīng)的匹配，參數(shù)1表示第一個(gè)子表達(dá)式。

如，foo.cpp中，results.str(0)將保存foo.cpp，results.str(1)將保存foo。

子表達(dá)式用于數(shù)據(jù)驗(yàn)證

子表達(dá)式的一個(gè)常見(jiàn)用途是驗(yàn)證必須匹配特定格式的數(shù)據(jù)。

eg:匹配聯(lián)通號(hào)碼

中國(guó)聯(lián)通號(hào)段：130、131、132、145、155、156、166、175、176、185、186、196

使用開(kāi)源工具Regulex實(shí)現(xiàn)正則表達(dá)式設(shè)計(jì)可視化。

C++怎么使用正則表達(dá)式

void test02()
{
	//匹配聯(lián)通號(hào)碼
	string UnicomNumber("\\b(1)(3[0-2]|[4578]5|[5-9]6)(\\d{4})(\\d{4})\\b");
	regex r(UnicomNumber);
	string testNumbers("130123456789 23112345678 7602125 1320000 16512345678 14512345678 17612345678");
	for (sregex_iterator it(testNumbers.begin(), testNumbers.end(), r), end_it;it != end_it;++it) {
		cout << it->str() << endl;	
	}
}

結(jié)果：

1451234567817612345678

解釋：

在模式UnicomNumber中，有4個(gè)子表達(dá)式

子表達(dá)式索引號(hào)	子表達(dá)式	含義
子表達(dá)式1	(1)	匹配1
子表達(dá)式2	(3[0-2]\|[4578]5\|[5-9]6)	匹配30/31/32/45/55/75/85/56/66/76/86/96
子表達(dá)式3	(\d{4})	匹配任意4個(gè)數(shù)字
子表達(dá)式4	(\d{4})	匹配任意4個(gè)數(shù)字

此外，"\b"匹配單詞邊界，可以理解為空格與單詞的分界線。"\d"匹配任意數(shù)字。[]內(nèi)表示多選一，{n}表示匹配n個(gè)，子表達(dá)式內(nèi)"|"表示或。

并且，在正則表達(dá)式語(yǔ)法中"\“具有轉(zhuǎn)義作用，在C++中也有轉(zhuǎn)義作用，因此，為了得到正則表達(dá)式中的”\"，需要在string中額外加一個(gè)"\"。所以我們的表達(dá)式中會(huì)有"\\b"和"\\d"。

在正則匹配過(guò)程中，迭代器查找每一個(gè)號(hào)碼，進(jìn)行分析

號(hào)碼	分析
130123456789	多了一位數(shù)字，單詞邊界匹配失敗
23112345678	子表達(dá)式1匹配失敗
7602125	子表達(dá)式1匹配失敗
1320000	子表達(dá)式3匹配失敗(或者說(shuō)是邊界匹配失??？)
16512345678	子表達(dá)式2匹配失敗
14512345678	匹配成功
17612345678	匹配成功

子匹配操作

ssub_match的相關(guān)操作

	解釋
matched	一個(gè)public bool成員，指出此ssub_match是否匹配了
first,second	public數(shù)據(jù)成員，指向匹配序列首元素和尾后迭代器
length()	匹配的大小
str()	匹配的string
s = ssub	將ssub_match對(duì)象轉(zhuǎn)化為string對(duì)象

添加一段代碼，測(cè)試一下matched成員

for (sregex_iterator it(testNumbers.begin(), testNumbers.end(), r), end_it;it != end_it;++it) {
	cout << it->str() << endl;	
	cout << "\t" << (*it)[4].matched << endl;
}

結(jié)果

14512345678
1
17612345678
1

這里的matched為true表示匹配到了，當(dāng)然，UnicomNumber的子表達(dá)式并非是可選匹配的(用"?"跟在一個(gè)表達(dá)式后表示可以有1個(gè)或0個(gè)該表達(dá)式)，所以它的四個(gè)子表達(dá)式全部匹配到了，若是可選表達(dá)式，可能會(huì)出現(xiàn)matched為false的情況。

regex_replace

正則表達(dá)式不僅用在查找給定序列方面，當(dāng)我們想將查找到的序列替換為另一個(gè)序列時(shí)，可使用regex_replace。

eg:格式化輸出電話號(hào)碼

void test03()
{
	string UnicomNumber("\\b(1)(3[0-2]|[4578]5|[5-9]6)(\\d{4})(\\d{4})\\b");
	regex r(UnicomNumber);
	string fmt = "$1$2 $3 $4";
	string number = "14512345678";
	cout << regex_replace(number,r,fmt) << endl;
}

結(jié)果：

145 1234 5678

解釋：

使用"$"后跟子表達(dá)式的索引號(hào)來(lái)表示一個(gè)特定的子表達(dá)式。

在"$1$2 $3 $4"中，希望子表達(dá)式1和2在一起，跟子表達(dá)式3和4之間都使用空格(" ")隔開(kāi)。

以上就是“C++怎么使用正則表達(dá)式”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會(huì)為大家更新不同的知識(shí)，如果還想學(xué)習(xí)更多的知識(shí)，請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

C++怎么使用正則表達(dá)式

目

正則表達(dá)式

RE庫(kù)組件

正則表達(dá)式的使用

regex迭代器類型

smatch相關(guān)操作

子表達(dá)式

子表達(dá)式用于數(shù)據(jù)驗(yàn)證

子匹配操作

regex_replace

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽