溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何理解php正則提取圖片地址

發(fā)布時(shí)間:2021-10-08 11:05:40 來(lái)源:億速云 閱讀:110 作者:iii 欄目:開(kāi)發(fā)技術(shù)

本篇內(nèi)容介紹了“如何理解php正則提取圖片地址”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

復(fù)制代碼 代碼如下:

<img title="囧2" src="http://www.xlanda.net/wp-admin/%E5%9B%A73" alt="囧4" title="囧2" width="5" height="6" />

囧1和囧2是非必需的,若要通過(guò)XHTML認(rèn)證囧4、囧5、囧6必不可少,囧3是核心內(nèi)容,當(dāng)然就不能少了。

就正則談?wù)齽t的話,我寫出的最短匹配是

復(fù)制代碼 代碼如下:

(?<=img.+?src=").*?(?=")

不過(guò),這條在php里不行,會(huì)出現(xiàn):

Warning: preg_match_all() [function.preg-match-all]: Compilation failed: lookbehind assertion is not fixed length at offset *** in ***

糾結(jié)了很久,都不行,原因何在呢?試了很多次,終于發(fā)現(xiàn)問(wèn)題在(?<=img.+?src=")這個(gè)零寬斷言里,在php中,零寬斷言里不支持類似“*”、“+”這些無(wú)限次的東西,于是報(bào)錯(cuò)了,把“.+?”改為定長(zhǎng)就好。不過(guò),要“img”和“src=”之間定長(zhǎng)基本上是不可能的。通常,圖片地址的img和src只會(huì)相隔一個(gè)很簡(jiǎn)單的空格,但不排除某些情況在src之前,img后有alt、titlte等東西。

所以

復(fù)制代碼 代碼如下:

(?<=img.src=").*?(?=")



復(fù)制代碼 代碼如下:

(?<=img\ssrc=").*?(?=")

可能可以,但不保證100%沒(méi)問(wèn)題。

你也許會(huì)問(wèn),單純

復(fù)制代碼 代碼如下:

(?<=src=").*?(?=")

不行嗎?通常情況,可以,但,搜索過(guò)頁(yè)面的盆友應(yīng)該知道,除了圖片地址用src開(kāi)頭以外,javascript地址也用src開(kāi)頭!而且,太多神通廣大的不可預(yù)知因素隱含其中,于是這個(gè)貌似很簡(jiǎn)短完美的寫法就行不通了。

你又或許會(huì)問(wèn),聰明簡(jiǎn)短的不行,我把圖片的后綴列出來(lái),總該可以了吧,如

復(fù)制代碼 代碼如下:

(?<=src=").*?\.(jpg|jpeg|gif|png|bmp|JPG|JPEG|GIF|PNG|BMP)

的確,這個(gè)寫法實(shí)在是很老實(shí),不過(guò),你見(jiàn)過(guò)沒(méi)有后綴的圖片?wwe.com 有很多這種例子呢

RAW http://us.wwe.com/content/media/images/Headers/15559182
SmackDown http://us.wwe.com/content/media/images/Headers/15854138
NXT http://us.wwe.com/content/media/images/Headers/15929136
Superstars http://us.wwe.com/content/media/images/Headers/15815850

上面的網(wǎng)址都是圖片,但都沒(méi)有傳統(tǒng)后綴,你老實(shí)也沒(méi)用,還是不能獲取到它們。

怎么辦呢?還可以這樣

復(fù)制代碼 代碼如下:

<img(.*?)src="(.*?)(?=")

和上面的表達(dá)式不同,這次的結(jié)果中array[0]的內(nèi)容不是我們想要的,我們要的圖片地址在array[2]里。為什么呢?因?yàn)槲覀冇昧?個(gè) (.*?),每個(gè)“()”的東西會(huì)自動(dòng)存在一個(gè)組里,而array[0]代表結(jié)果的匯總,array[1]包含了img和src里的所有東西,array[2]才輪到我們想要的圖片地址。這種匹配方法,既能匹配有傳統(tǒng)后綴的圖片,也能匹配一些無(wú)后綴的圖片文件,同時(shí)又不會(huì)殺錯(cuò)其它src=文件。個(gè)人感覺(jué)還是不錯(cuò)的,呵呵。當(dāng)然了,如果你還有更好的建議,請(qǐng)馬上留言,全球人民都會(huì)感謝你!

你到底要什么樣的圖片,是固定格式還是其它?得具體情況具體分析呢。

我的建議是:

如果你要的圖片地址的格式是img空格src=的,請(qǐng)使用:(?<=img.src=").*?(?=") ,數(shù)組唯一,你懂的。

否則,請(qǐng)使用<img(.*?)src="(.*?)(?=") ,記得留意有用內(nèi)容所在的數(shù)組位置哦!

再談php正則提取圖片地址

前天寫了小談php正則提取圖片地址 ,但其實(shí),提取src=里面的圖片地址還不足夠,因?yàn)椴荒鼙WC那個(gè)地址一定是絕對(duì)地址,完全的地址,如果那是相對(duì)的呢?如果地址諸如:

albums/Candids/thumb_P1050338.jpg
/content/media/touts/5271608/5271654/15320982

那該如何是好?

有時(shí)在這些地址前面需要加http://example1.com/ ,有些甚至要加http://example1.com/example2/.../ 于是,要寫出出一種法則符合所有要求,簡(jiǎn)直是天方夜譚。只能見(jiàn)機(jī)行事對(duì)癥下藥。有時(shí),需要從前面動(dòng)刀,有時(shí)需要從后面砍斷。

今天,我驚訝地知道了一個(gè)道理,原來(lái)http://example.com/ 和http://example.com////// 是一樣的!

https://cache.yisu.com/upload/information/20201209/266/42953.png

https://cache.yisu.com/upload/information/20201209/266/42954.png

最終你都能到達(dá)

于是,對(duì)于一開(kāi)始提到的兩個(gè)相對(duì)地址如果要強(qiáng)行加入某前綴恢復(fù)成絕對(duì)地址的話,也不管前面有沒(méi)有“/”,只管加一個(gè)“/”就好,“有殺錯(cuò),沒(méi)放過(guò)” 嘛,多一個(gè)顯示仍會(huì)正常,但少一個(gè)“/”,嘿嘿,你就別想成功了。開(kāi)始的時(shí)候我還沒(méi)意識(shí)到這種東西,復(fù)制了一大段代碼,把一樣的東西硬生生弄兩份,一份加 “./.”,一份不加。我這個(gè)火星來(lái)的,浪費(fèi)時(shí)間了。

放出2個(gè)地址,公測(cè)一下網(wǎng)頁(yè)獲取圖片的情況:

針對(duì)任何網(wǎng)頁(yè),需要登入的除外:http://xyark.serw5.com/img.php
針對(duì)Coppermine Photo Gallery 系統(tǒng):http://xyark.serw5.com/g.php (如果你認(rèn)為彈出原圖的js頁(yè)面也需要的話,我只好囧你了)

普頁(yè)是個(gè)對(duì)抓取任何圖片的嘗試,系統(tǒng)專頁(yè)是為了展示什么叫做具體情況具體分析。試過(guò)的童鞋會(huì)知道,普頁(yè)對(duì)某些使用Coppermine Photo Gallery系統(tǒng)的網(wǎng)站是行不通的,原因何在?就是那個(gè)前綴搞的鬼!但系統(tǒng)專頁(yè)就能很好地避開(kāi)了這個(gè)問(wèn)題。

“如何理解php正則提取圖片地址”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

php
AI