溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

PHP中怎么使用curl_setopt()函數(shù)抓取網(wǎng)頁(yè)

發(fā)布時(shí)間:2021-07-14 16:02:09 來(lái)源:億速云 閱讀:154 作者:Leah 欄目:開(kāi)發(fā)技術(shù)

本篇文章給大家分享的是有關(guān)PHP中怎么使用curl_setopt()函數(shù)抓取網(wǎng)頁(yè),小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。

通過(guò)curl_setopt()函數(shù)可以方便快捷的抓取網(wǎng)頁(yè)(采集很方便大笑),curl_setopt 是PHP的一個(gè)擴(kuò)展庫(kù)
    
使用條件:需要在php.ini 中配置開(kāi)啟。(PHP 4 >= 4.0.2)
       //取消下面的注釋

extension=php_curl.dll

Linux下面,需要重新編譯PHP了,編譯時(shí),你需要打開(kāi)編譯參數(shù)——在configure命令上加上“–with-curl” 參數(shù)。

1、 一個(gè)抓取網(wǎng)頁(yè)的簡(jiǎn)單案例:

[php] view plain copy print?
// 創(chuàng)建一個(gè)新cURL資源 
$ch = curl_init();  
// 設(shè)置URL和相應(yīng)的選項(xiàng) 
curl_setopt($ch, CURLOPT_URL, "http://www.baidu.com/"); 
curl_setopt($ch, CURLOPT_HEADER, false);  
// 抓取URL并把它傳遞給瀏覽器 
curl_exec($ch); 
//關(guān)閉cURL資源,并且釋放系統(tǒng)資源 
curl_close($ch);

2、POST數(shù)據(jù)案例:

[php] view plain copy print?
// 創(chuàng)建一個(gè)新cURL資源 
$ch = curl_init(); 
$data = 'phone='. urlencode($phone); 
// 設(shè)置URL和相應(yīng)的選項(xiàng) 
curl_setopt($ch, CURLOPT_URL, "http://www.post.com/"); 
curl_setopt($ch, CURLOPT_POST, 1); 
curl_setopt($ch, CURLOPT_POSTFIELDS, $data); 
// 抓取URL并把它傳遞給瀏覽器 
curl_exec($ch); 
//關(guān)閉cURL資源,并且釋放系統(tǒng)資源 
curl_close($ch);

3、關(guān)于SSL和Cookie

關(guān)于SSL也就是HTTPS協(xié)議,你只需要把CURLOPT_URL連接中的http://變成https://就可以了。當(dāng)然,還有一個(gè)參數(shù)叫CURLOPT_SSL_VERIFYHOST可以設(shè)置為驗(yàn)證站點(diǎn)。

關(guān)于Cookie,你需要了解下面三個(gè)參數(shù):

  • CURLOPT_COOKIE,在當(dāng)面的會(huì)話中設(shè)置一個(gè)cookie

  • CURLOPT_COOKIEJAR,當(dāng)會(huì)話結(jié)束的時(shí)候保存一個(gè)Cookie

  • CURLOPT_COOKIEFILE,Cookie的文件。

PS:新浪微博登陸API部分截取(部分我增加了點(diǎn)注釋,全當(dāng)參數(shù)翻譯下。哈哈) 有興趣的自己研究,自己挪為己用。嘿嘿

[php] view plain copy print?
/** 
   * Make an HTTP request 
   * 
   * @return string API results 
   * @ignore 
   */ 
  function http($url, $method, $postfields = NULL, $headers = array()) { 
    $this->http_info = array(); 
    $ci = curl_init(); 
    /* Curl settings */ 
    curl_setopt($ci, CURLOPT_HTTP_VERSION, CURL_HTTP_VERSION_1_0);//讓cURL自己判斷使用哪個(gè)版本 
    curl_setopt($ci, CURLOPT_USERAGENT, $this->useragent);//在HTTP請(qǐng)求中包含一個(gè)"User-Agent: "頭的字符串。 
    curl_setopt($ci, CURLOPT_CONNECTTIMEOUT, $this->connecttimeout);//在發(fā)起連接前等待的時(shí)間,如果設(shè)置為0,則無(wú)限等待 
    curl_setopt($ci, CURLOPT_TIMEOUT, $this->timeout);//設(shè)置cURL允許執(zhí)行的最長(zhǎng)秒數(shù) 
    curl_setopt($ci, CURLOPT_RETURNTRANSFER, TRUE);//返回原生的(Raw)輸出 
    curl_setopt($ci, CURLOPT_ENCODING, "");//HTTP請(qǐng)求頭中"Accept-Encoding: "的值。支持的編碼有"identity","deflate"和"gzip"。如果為空字符串"",請(qǐng)求頭會(huì)發(fā)送所有支持的編碼類型。 
    curl_setopt($ci, CURLOPT_SSL_VERIFYPEER, $this->ssl_verifypeer);//禁用后cURL將終止從服務(wù)端進(jìn)行驗(yàn)證 
    curl_setopt($ci, CURLOPT_HEADERFUNCTION, array($this, 'getHeader'));//第一個(gè)是cURL的資源句柄,第二個(gè)是輸出的header數(shù)據(jù) 
    curl_setopt($ci, CURLOPT_HEADER, FALSE);//啟用時(shí)會(huì)將頭文件的信息作為數(shù)據(jù)流輸出 
    switch ($method) { 
      case 'POST': 
        curl_setopt($ci, CURLOPT_POST, TRUE); 
        if (!empty($postfields)) { 
          curl_setopt($ci, CURLOPT_POSTFIELDS, $postfields); 
          $this->postdata = $postfields; 
        } 
        break; 
      case 'DELETE': 
        curl_setopt($ci, CURLOPT_CUSTOMREQUEST, 'DELETE'); 
        if (!empty($postfields)) { 
          $url = "{$url}?{$postfields}"; 
        } 
    } 
    if ( isset($this->access_token) && $this->access_token ) 
      $headers[] = "Authorization: OAuth3 ".$this->access_token; 
    $headers[] = "API-RemoteIP: " . $_SERVER['REMOTE_ADDR']; 
    curl_setopt($ci, CURLOPT_URL, $url ); 
    curl_setopt($ci, CURLOPT_HTTPHEADER, $headers ); 
    curl_setopt($ci, CURLINFO_HEADER_OUT, TRUE ); 
    $response = curl_exec($ci); 
    $this->http_code = curl_getinfo($ci, CURLINFO_HTTP_CODE); 
    $this->http_info = array_merge($this->http_info, curl_getinfo($ci)); 
    $this->url = $url; 
    if ($this->debug) { 
      echo "=====post data======\r\n"; 
      var_dump($postfields); 
 
      echo '=====info====='."\r\n"; 
      print_r( curl_getinfo($ci) ); 
 
      echo '=====$response====='."\r\n"; 
      print_r( $response ); 
    } 
    curl_close ($ci); 
    return $response; 
  }

以上就是PHP中怎么使用curl_setopt()函數(shù)抓取網(wǎng)頁(yè),小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

php
AI