溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

正則表達(dá)式之如何實(shí)現(xiàn)位置匹配

發(fā)布時(shí)間:2021-08-25 09:52:19 來(lái)源:億速云 閱讀:137 作者:小新 欄目:互聯(lián)網(wǎng)科技

這篇文章給大家分享的是有關(guān)正則表達(dá)式之如何實(shí)現(xiàn)位置匹配的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。

具體如下:

一、問(wèn)題引入

如果想匹配一段文本中的某個(gè)單詞(暫不考慮多行模式,將在后面介紹),我們可能會(huì)像下面這樣:

文本:Yesterday is history, tomorrow is a mystery, but today is a gift.

正則表達(dá)式:is

結(jié)果:Yesterday 【is】 h【is】tory, tomorrow 【is】 a mystery, but today 【is】 a gift.

分析:本來(lái)只是要匹配單詞is,但把其他單詞中包含的is也匹配出來(lái)了。要解決這個(gè)問(wèn)題,使用邊界界定符,也就是在正則表達(dá)式里用一些元字符來(lái)表明我們想讓匹配操作在什么位置(或邊界)發(fā)生。

二、單詞邊界

一種常用的邊界是由限定符\b指定的單詞邊界,\b用來(lái)匹配單詞的開始和結(jié)尾。更確切地說(shuō),它是匹配這樣一個(gè)位置,這個(gè)位置位于一個(gè)能夠用來(lái)構(gòu)成單詞的字符(字母、數(shù)字、下劃線,也就是與\w相匹配的字符)和一個(gè)不能用來(lái)構(gòu)成單詞的字符(與\W相匹配的字符)之間。來(lái)看前面的例子:

文本:Yesterday is history, tomorrow is a mystery, but today is a gift.

正則表達(dá)式:\bis\b

結(jié)果:Yesterday 【is】 history, tomorrow 【is】 a mystery, but today 【is】 a gift.

分析:在原始文本中,單詞is的前后都有一個(gè)空格,而這與模式\bis\b匹配(空格是用來(lái)分隔單詞的字符之一)。而單詞history中也包含了is,因?yàn)樗那昂蠓謩e有一個(gè)字符h和t,這兩個(gè)字符都不能與\b匹配。

如果不匹配一個(gè)單詞邊界,則使用\B。如:

文本:Please enter the nine-digit id as it appears on your color - coded pass-key.

正則表達(dá)式:\B-\B

結(jié)果:Please enter the 【nine-digit】 id as it appears on your color - coded 【pass-key】.

分析:\B-\B將匹配一個(gè)前后都不是單詞邊界的連字符,nine-digit和pass-key中連字符前后都沒有空格,所以能夠匹配,而color - coded中連字符前后都有空格,所以不能匹配。

三、字符串邊界

單詞邊界可以用來(lái)進(jìn)行與單詞有關(guān)的位置匹配(單詞開頭、結(jié)束、整個(gè)單詞等等)。而字符串邊界也有著類似的用途,只不過(guò)是用來(lái)進(jìn)行與字符串有關(guān)的位置匹配(字符串開頭、結(jié)束、整個(gè)字符串等等)。用來(lái)定義字符串邊界的元字符有兩個(gè):一個(gè)是用來(lái)定義字符串開頭的^,另一個(gè)是用來(lái)定義字符串結(jié)尾的$。

比如要檢查一個(gè)XML文檔的合法性,合法的XML文檔都以<?xml…..?>這樣形式開頭:

文本:

<?xml version="1.0" encoding="UTF-8"?>
<project basedir="." default="ear">
</project>

正則表達(dá)式:^\s*<\?xml.*?\?>

結(jié)果:

<?xml version="1.0" encoding="UTF-8"?>
<project basedir="." default="ear">
</project>

分析:^匹配一個(gè)字符串的開頭位置,所以^\s*將匹配一個(gè)字符串的開頭位置和隨后的零個(gè)或多個(gè)空白字符,因?yàn)?lt;?xml>標(biāo)簽前面允許有空格、制表符、換行符等空白字符。

$元字符符的用法除了位置上的差異外,與^用法完全一樣。比如,檢查一個(gè)html頁(yè)面是否以</html>結(jié)尾,可以用模式:</[Hh][Tt][Mm][Ll]>\s*$

四、多行匹配模式

正則表達(dá)式可以通過(guò)一些特殊的元字符來(lái)改變另外一些元字符的行為??梢酝ㄟ^(guò)(?m) 來(lái)啟用多行匹配模式。多行匹配模式將使得正則表達(dá)式引擎把行分隔符當(dāng)做一個(gè)字符串分隔符來(lái)對(duì)待。在多行匹配模式下,^不僅匹配正常的字符串開頭,還將匹配行分隔符(換行符)后面的開始位置,$不僅匹配正常的字符串結(jié)尾,還將匹配行分隔符(換行符)后面的結(jié)束位置。

在使用時(shí),(?m)必須出現(xiàn)在整個(gè)模式的最前面。比如,通過(guò)正則表達(dá)式把一段java代碼中的單行注釋(以//開始)內(nèi)容全部找出來(lái)。

文本:

publicDownloadingDialog(Frame parent){
     //Callsuper constructor, specifying that dialog box is modal.
     super(parent,true);
     //Setdialog box title.
     setTitle("E-mailClient");
     //Instructwindow not to close when the "X" is clicked.
     setDefaultCloseOperation(DO_NOTHING_ON_CLOSE);
     //Puta message with a nice border in this dialog box.
     JPanelcontentPanel = new JPanel();
     contentPanel.setBorder(BorderFactory.createEmptyBorder(5,5, 5, 5));
     contentPanel.add(newJLabel("Downloading messages..."));
     setContentPane(contentPanel);
     //Sizedialog box to components.
     pack();
     //Centerdialog box over application.
     setLocationRelativeTo(parent);
}

正則表達(dá)式:(?m)^\s*//.*$

結(jié)果:

         publicDownloadingDialog(Frame parent){
【              //Call superconstructor, specifying that dialog box is modal.】
                   super(parent,true);
【              //Set dialog boxtitle.】
                   setTitle("E-mailClient");
【              //Instruct windownot to close when the "X" is clicked.】
                   setDefaultCloseOperation(DO_NOTHING_ON_CLOSE);
【              //Put a messagewith a nice border in this dialog box.】
                   JPanelcontentPanel = new JPanel();
                   contentPanel.setBorder(BorderFactory.createEmptyBorder(5,5, 5, 5));
                   contentPanel.add(newJLabel("Downloading messages..."));
                   setContentPane(contentPanel);
【              //Size dialog boxto components.】
                   pack();
【              //Center dialogbox over application.】
                   setLocationRelativeTo(parent);
         }

分析:^\s*//.*$將匹配一個(gè)字符串的開始,然后是任意多個(gè)空白字符,再后面是//,再往后是任意文本,最后是一個(gè)字符串的結(jié)束。不過(guò)這個(gè)模式只能找出第一條注釋,加上(?m)前綴后,將把換行符視為一個(gè)字符串分隔符,這樣就可以把每一行注釋匹配出來(lái)了。

java代碼實(shí)現(xiàn)如下(文本保存在text.txt文件中):

public static String getTextFromFile(String path) throws Exception{
  BufferedReader br = new BufferedReader(new FileReader(new File(path)));
  StringBuilder sb = new StringBuilder();
  char[] cbuf = new char[1024];
  int len = 0;
  while(br.ready() && (len = br.read(cbuf)) > 0){
    br.read(cbuf);
    sb.append(cbuf, 0, len);
  }
    br.close();
  return sb.toString();
}
public static void multilineMatch() throws Exception{
  String text = getTextFromFile("E:/text.txt");
  String regex = "(?m)^\\s*//.*$";
  Matcher m = Pattern.compile(regex).matcher(text);
  while(m.find()){
    System.out.println(m.group());
  }
}

輸出結(jié)果如下:

//Call super constructor, specifying that dialog box is modal.
//Set dialog box title.
//Instruct window not to close when the "X" is clicked.
//Put a message with a nice border in this dialog box.
//Size dialog box to components.
//Center dialog box over application.

感謝各位的閱讀!關(guān)于“正則表達(dá)式之如何實(shí)現(xiàn)位置匹配”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI