溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何使用Curl進(jìn)行抓取遠(yuǎn)程內(nèi)容時(shí)url中文編碼問(wèn)題

發(fā)布時(shí)間:2021-10-08 16:42:36 來(lái)源:億速云 閱讀:137 作者:iii 欄目:開(kāi)發(fā)技術(shù)

本篇內(nèi)容介紹了“如何使用Curl進(jìn)行抓取遠(yuǎn)程內(nèi)容時(shí)url中文編碼問(wèn)題”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

PHP中對(duì)于URL進(jìn)行編碼,可以使用 urlencode() 或者 rawurlencode(),二者的區(qū)別是前者把空格編碼為 '+',而后者把空格編碼為 '%20',不過(guò)應(yīng)該注意的是,在編碼時(shí)應(yīng)該只對(duì)部分URL編碼,否則URL中的冒號(hào)和反斜杠也會(huì)被轉(zhuǎn)義。下面是詳細(xì)解釋:

復(fù)制代碼 代碼如下:

string urlencode( string str)


返回字符串,此字符串中除了 -_. 之外的所有非字母數(shù)字字符都將被替換成百分號(hào)(%)后跟兩位十六進(jìn)制數(shù),空格則編碼為加號(hào)(+)。
例子 1 :urlencode函數(shù)與rawurlencode函數(shù)區(qū)別

復(fù)制代碼 代碼如下:

$str='博 客';
echo urlencode($str);
echo "<br>";
echo rawurlencode($str);


url結(jié)果:

復(fù)制代碼 代碼如下:

%B2%A9+%BF%CD
%B2%A9%20%BF%CD


例子 2 :url中文編碼方法
從url:"http://www.baidu.com/s?wd=博 客" 轉(zhuǎn)為 url:"http://www.baidu.com/s?wd=%E5%8D%9A%20%E5%AE%A2";

復(fù)制代碼 代碼如下:

$url='http://www.baidu.com/s?wd=博 客';
$arr=explode('=',$url);
$url=$arr[0].'='.rawurlencode($arr[1]);
echo $url;


結(jié)果:
http://www.baidu.com/s?wd=%E5%8D%9A%20%E5%AE%A2
或許用以下url編碼函數(shù)

復(fù)制代碼 代碼如下:

function cn_urlencode($url){
$pregstr = "/[\x{4e00}-\x{9fa5}]+/u";//UTF-8中文正則
if(preg_match_all($pregstr,$url,$matchArray)){//匹配中文,返回?cái)?shù)組
foreach($matchArray[0] as $key=>$val){
$url=str_replace($val, urlencode($val), $url);//將轉(zhuǎn)譯替換中文
}
if(strpos($url,' ')){//若存在空格
$url=str_replace(' ','%20',$url);
}
}
return $url;

url結(jié)果:
http://www.baidu.com/s?wd=%E5%8D%9A%20%E5%AE%A2

“如何使用Curl進(jìn)行抓取遠(yuǎn)程內(nèi)容時(shí)url中文編碼問(wèn)題”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI