溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

怎么在PHP中利用Curl抓取數(shù)據(jù)

發(fā)布時(shí)間:2021-04-08 17:24:03 來(lái)源:億速云 閱讀:258 作者:Leah 欄目:開(kāi)發(fā)技術(shù)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)怎么在PHP中利用Curl抓取數(shù)據(jù),文章內(nèi)容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

1. 首先需要對(duì)相應(yīng)的登錄頁(yè)面的html源代碼進(jìn)行分析,獲得一些必要的信息:

(1)登錄頁(yè)面的地址;

(2)驗(yàn)證碼的地址;

(3)登錄表單需要提交的各個(gè)字段的名稱(chēng)和提交方式;

(4)登錄表單提交的地址;

(5)另外要需要知道要抓取的數(shù)據(jù)所在的地址。

2. 獲取cookie并存儲(chǔ)(針對(duì)使用cookie文件的網(wǎng)站):

$login_url = 'http://www.xxxxx';  //登錄頁(yè)面地址
$cookie_file = dirname(__FILE__)."/pic.cookie";  //cookie文件存放位置(自定義)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $login_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
curl_exec($ch);
curl_close($ch);

3. 獲取驗(yàn)證碼并存儲(chǔ)(針對(duì)使用驗(yàn)證碼的網(wǎng)站):

$verify_url = "http://www.xxxx";   //驗(yàn)證碼地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $verify_url);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$verify_img = curl_exec($ch);
curl_close($ch);
$fp = fopen("./verify/verifyCode.png",'w');  //把抓取到的圖片文件寫(xiě)入本地圖片文件保存
fwrite($fp, $verify_img);
fclose($fp);

說(shuō)明:

由于不能實(shí)現(xiàn)驗(yàn)證碼的識(shí)別,所以我這里的做法是,把驗(yàn)證碼圖片抓取下來(lái)存放到本地文件中,然后在自己項(xiàng)目中的html頁(yè)面中顯示,讓用戶去填寫(xiě),等用戶填寫(xiě)完賬號(hào)、密碼和驗(yàn)證碼,并點(diǎn)擊提交按鈕之后再去進(jìn)行下一步的操作。

4. 模擬提交登錄表單:

$ post_url = 'http://www.xxxx';   //登錄表單提交地址
$post = "username=$account&password=$password&seccodeverify=$verifyCode";//表單提交的數(shù)據(jù)(根據(jù)表單字段名和用戶輸入決定)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $ post_url);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);     //提交方式為post
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_exec($ch);
curl_close($ch);

5. 抓取數(shù)據(jù):

$data_url = "http://www.xxxx";   //數(shù)據(jù)所在地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $data_url);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,0);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
$data = curl_exec($ch);
curl_close($ch);

到目前為止,已經(jīng)把數(shù)據(jù)所在地址的這個(gè)頁(yè)面都抓取下來(lái)存儲(chǔ)在字符串變量$data中了。

需要注意的是抓取下來(lái)的是一個(gè)網(wǎng)頁(yè)的html源代碼,也就是說(shuō)這個(gè)字符串中不僅包含了你想要的數(shù)據(jù),還包含了許多的html標(biāo)簽等你不想要的東西。所以如果你想要從中提取出你需要的數(shù)據(jù)的話,你還要對(duì)存放數(shù)據(jù)的頁(yè)面的html代碼進(jìn)行分析,然后結(jié)合字符串操作函數(shù)、正則匹配等方法從中提取出你想要的數(shù)據(jù)。

以上方法對(duì)使用http協(xié)議的一般網(wǎng)站是有效的。但是如果你要模擬登錄的是使用了https協(xié)議的網(wǎng)站的話還需要添加如下一些處理:

1. 跳過(guò)https驗(yàn)證:

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

2. 使用用戶代理:

$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);

上述就是小編為大家分享的怎么在PHP中利用Curl抓取數(shù)據(jù)了,如果剛好有類(lèi)似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI