您好,登錄后才能下訂單哦!
php正則匹配中文亂碼問題怎么解決?這個(gè)問題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過這個(gè)問題能讓你收獲頗深。下面是小編給大家?guī)淼膮⒖純?nèi)容,讓我們一起來看看吧!
php正則匹配中文亂碼的解決辦法:首先打開PHP代碼文件;然后在代碼文件中加上UTF8修飾符即可,其正則表達(dá)式的語句如“preg_replace('/[萬]/u','萬',$a);”。
具體問題:
PHP字符串中用正則表達(dá)式匹配中文出現(xiàn)亂碼
<?php echo '<h3>正則表達(dá)式匹配中文</h3><br>'; $a = '天地不仁,以萬物為芻狗'; $b = preg_replace('/萬/','萬',$a); echo $b; echo '<h3>加上方括號后替換結(jié)果出現(xiàn)亂碼</h3><br>'; $c = '天地不仁,以萬物為芻狗'; $d = preg_replace('/[萬]/','萬',$a); echo $d; ?>
以上程序運(yùn)行結(jié)果可以在http://nyaii.com/s/test.php看到。不知為何,為匹配的中文字符加上方括號后就出現(xiàn)了亂碼。同樣的情形,在javascript中執(zhí)行就一切正常。
'天地不仁'.replace(/[天]/,'') //outputs "地不仁"
解決辦法:
加上UTF8修飾符即可
$d = preg_replace('/[萬]/u','萬',$a);
其余修飾符請見
http://php.net/manual/en/reference.pcre.pattern.modifiers.php
以下為對于題主評論中的問題的補(bǔ)充內(nèi)容
關(guān)于為什么[]內(nèi)就需要加u修飾符的問題,實(shí)際上嚴(yán)格來說,兩種場合你最好都加上u修飾符
但為什么[]就會導(dǎo)致亂碼呢,這就要從字節(jié)層面而不是字符層面來解釋了。
首先我們知道PHP的字符串并不是Unicode進(jìn)行存儲的,然后我們來看下這個(gè)代碼
<?php $a = "萬"; echo strlen($a); //3 for ($i = 0; $i < strlen($a); $i++) { echo dechex(ord($a[$i])) . ' '; //e4 b8 87 }
我們可以拿到"萬"字的utf8十六進(jìn)制編碼是e4b887
所以在沒有開啟utf8修飾符的時(shí)候,正則表達(dá)式引擎并沒有把"萬"當(dāng)成一個(gè)獨(dú)立的字符,而是三個(gè)字節(jié)的連續(xù)數(shù)據(jù)。
以下是結(jié)論:
當(dāng)沒有[]進(jìn)行匹配的時(shí)候,它尋找的是十六進(jìn)制編碼值為 e4 b8 87 的三個(gè)連續(xù)字符,換句話說,實(shí)際上你的模式是\xe4\xb8\x87,但這種連續(xù)字符的出現(xiàn)在你的字符串中,只有"萬"字能對上,所以替換了并不會有亂碼。但如果你的字符串里面可能還要包括四字節(jié)的utf8編碼字符,例如emoji,可能就會導(dǎo)致問題了
當(dāng)你在萬外面包裝了[],正則表達(dá)式引擎實(shí)際上找的是[\xe4\xb8\x87],懂正則表達(dá)式的很快就能發(fā)現(xiàn)它實(shí)際上是匹配這三個(gè)字符的任意一個(gè),所以這個(gè)時(shí)候就會影響到除了萬以外的別的漢字了
當(dāng)你加了utf8修飾符之后,"萬"會被正則表達(dá)式當(dāng)成是一個(gè)獨(dú)立的字符,所以不再會產(chǎn)生這個(gè)問題
至于javascript,因?yàn)樗鼘ψ址幋a是原生的unicode,每個(gè)字符都會被當(dāng)成一個(gè)字符而不是拆分成字節(jié)數(shù)據(jù),所以不會產(chǎn)生這個(gè)問題
感謝各位的閱讀!看完上述內(nèi)容,你們對php正則匹配中文亂碼問題怎么解決大概了解了嗎?希望文章內(nèi)容對大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。