溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

在PHP項目中利用file_get_contents對網(wǎng)頁進行抓取時出現(xiàn)中文亂碼如何解決

發(fā)布時間:2020-12-10 15:15:49 來源:億速云 閱讀:122 作者:Leah 欄目:開發(fā)技術(shù)

在PHP項目中利用file_get_contents對網(wǎng)頁進行抓取時出現(xiàn)中文亂碼如何解決?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

原因:可能是服務(wù)器開了GZIP壓縮,下面是用firebug查看我的網(wǎng)站的頭信息,Gzip是開了的,請求頭信息原始頭信息,代碼如下:

代碼如下:
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
Host www.jb51.net
User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0


可以從header信息中找到 Content-Encoding 項是 Gzip.

解決辦法比較簡單,就是用 curl 代替 file_get_contents 去獲取,然后在 curl 配置參數(shù)中加一條,代碼如下:

代碼如下:
curl_setopt($ch, CURLOPT_ENCODING, "gzip");

今天用 file_get_contents 抓圖片的時候,開始沒發(fā)現(xiàn)這個問題,廢了老大勁才找出來.

使用自帶的zlib庫,如果服務(wù)器已經(jīng)裝了zlib庫,用下面的代碼可以輕易解決亂碼問題,代碼如下:

代碼如下:
$data = file_get_contents("compress.zlib://".$url);

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI