溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

go語(yǔ)言正則表達(dá)式怎么用

發(fā)布時(shí)間:2021-11-20 16:02:37 來源:億速云 閱讀:303 作者:小新 欄目:軟件技術(shù)

小編給大家分享一下go語(yǔ)言正則表達(dá)式怎么用,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

正則表達(dá)式處理使用到的庫(kù)

regexp

使用到regexp庫(kù)函數(shù)有

MustCompile 和 Compile
MustCompile 的作用和 Compile 一樣,    將正則表達(dá)式編譯成一個(gè)正則對(duì)象(使用 PERL 語(yǔ)法)。
該正則對(duì)象會(huì)采用“l(fā)eftmost-first”模式。選擇第一個(gè)匹配結(jié)果.如果正則表達(dá)式語(yǔ)法錯(cuò)誤,則返
回錯(cuò)誤信息。不同的是,當(dāng)正則表達(dá)式 str 不合法時(shí),MustCompile 會(huì)拋出異常,而 Compile 僅返回一個(gè) error 值
FindString
返回匹配上正則表達(dá)式最左邊的一個(gè)字符串,如果沒有匹配上會(huì)返回空字符串

實(shí)踐

例1   獲取下面文本中的company(公司名稱)、address(地址)、telephone(電話)
         <ul class="t3">     
              <li class="company">山東東阿阿膠股份有限公司</li>
              <li class="address">山東省東阿縣阿膠街78號(hào)</li>
               <li class="telephone">0635-3262315</li>

    </ul>

正則表達(dá)式

        <li class="company">(.+)</li>
        <li class="company">(.+)</li>
        <li class="telephone">(.+)</li>

代碼實(shí)現(xiàn)

    package ...
    import (
        ...
        "regexp"
        ...
    )
    ...

    var (
        company          = regexp.MustCompile(`<li class="company">(.+)</li>`)
        address          = regexp.MustCompile(`<li class="address">(.+)</li>`)
        telephone        = regexp.MustCompile(`<li class="telephone">(.+)</li>`)
        )

    var (
        respBody = ` 
                <ul class="t3">
                    <li class="company">山東東阿阿膠股份有限公司</li>
                    <li class="address">山東省東阿縣阿膠街78號(hào)</li>
                    <li class="telephone">0635-3262315</li>
                </ul>`
    )

companyMatches := company.FindString(respBody)
companyRst := strings.TrimSpace(strings.Trim(strings.Trim(companyMatches,`<li class="company">`),`</`))  

addressMatches := address.FindString(respBody)
addre***st := strings.TrimSpace(strings.Trim(strings.Trim(addressMatches,`<li class="address">`),`</`))

telephoneMatches := telephone.FindString(respBody)
telephoneRst := strings.TrimSpace(strings.Trim(strings.Trim(telephoneMatches,`<li class="telephone">`),`</`))

講解:

其中正則表達(dá)式   `<li class="company">(.+)</li>`  的意思是匹配以<li class="company">開頭,以</li>結(jié)尾,中間匹配一次或多次除換行符之外的任何字符

'.' 匹配除換行符(\n、\r)之外的任何單個(gè)字符。要匹配包括 '\n' 在內(nèi)的任何字符,請(qǐng)使用像"(.|\n)"的模式。

'+' 匹配前面的子表達(dá)式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等價(jià)于 {1,}。
例2  將HTML標(biāo)簽全轉(zhuǎn)換成小寫
re, _ := regexp.Compile("\\<[\\S\\s]+?\\>")或者
    re, _ = regexp.Compile(`\<[\S\s]+?\>`)
respBody = re.ReplaceAllStringFunc(respBody, strings.ToLower)

講解:

    匹配以'<'開頭,以’\>‘結(jié)尾,中間匹配一個(gè)或多個(gè)任意字符,而且盡可能少的匹配所搜索到的字符,因?yàn)?標(biāo)示非貪婪模式

    舉個(gè)例子:
            正則表達(dá)式`\<[\S\s]+?\>處理下面字符串 ’<test1\> nice<test2\>‘,返回結(jié)果’<test1\>‘
            而正則表達(dá)式`\<[\S\s]+\>處理下面字符串 ’<test1\> nice<test2\>‘,返回接’<test1\> nice<test2\>‘

?當(dāng)該字符緊跟在任何一個(gè)其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面時(shí),匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認(rèn)的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對(duì)于字符串 "oooo",'o+?' 將匹配單個(gè) "o",而 'o+' 將匹配所有 'o'。
\s  匹配任何空白字符,包括空格、制表符、換頁(yè)符等等。等價(jià)于 [ \f\n\r\t\v]。
\S  匹配任何非空白字符。等價(jià)于 [^ \f\n\r\t\v]。
例3  去除STYLE
re, _ = regexp.Compile("\\<style[\\S\\s]+?\\</style\\>")或者
    re, _ = regexp.Compile(`\<style[\S\s]+?\</style\>`)
respBody = re.ReplaceAllString(respBody, "")

講解:    
同例2

例4  去除SCRIPT
re, _ = regexp.Compile("\\<script[\\S\\s]+?\\</script\\>") 或者
    re, _ = regexp.Compile(`\<script[\S\s]+?\</script\>`)
respBody = re.ReplaceAllString(respBody, "")

講解:
同例3

例5  去除所有尖括號(hào)內(nèi)的HTML代碼,并換成換行符
re, _ = regexp.Compile("\\<[\\S\\s]+?\\>")
respBody = re.ReplaceAllString(respBody, "\n")

講解:
同例3

例6     去除連續(xù)的換行符
re, _ = regexp.Compile("\\s{1,}")
respBody = re.ReplaceAllString(respBody, "\n")

講解:

{n,}  n 是一個(gè)非負(fù)整數(shù)。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等價(jià)于 'o+'。'o{0,}' 則等價(jià)于 'o*'。
例7  查找下面尾頁(yè)數(shù)字15
<a  target='_self' href='/search/不孕癥-p15/' class='last'>尾頁(yè)</a>

代碼:

allPage       = regexp.MustCompile(`<a  target='_self' href='/search/[.\x{4e00}-\x{9fa5}0-9]+-p[0-9]/'[ ]*class='last'>尾頁(yè)</a>`)
allPagePrefix = regexp.MustCompile(`<a  target='_self' href='/search/[.\x{4e00}-\x{9fa5}0-9]+-p`)
allPageSuffix = regexp.MustCompile(`/'[ ]*class='last'>\x{5c3e}\x{9875}</a>`)

numPage = allPage.FindString(body)
numPage = allPagePrefix.ReplaceAllString(numPage, "")
numPage = allPageSuffix.ReplaceAllString(numPage, "")

匹配詳解:
正則表達(dá)式<a  target='_self' href='/search/[.\x{4e00}-\x{9fa5}0-9]+-p[0-9]/'[ ]*class='last'>尾頁(yè)</a>:

    匹配以"<a  target='_self' href='/search/"開頭,以class='last'>尾頁(yè)</a>結(jié)尾,中間匹配若干個(gè)除換行外的任意字符或者中文字符

以上是“go語(yǔ)言正則表達(dá)式怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI