溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫

發(fā)布時間:2021-07-01 11:03:42 來源:億速云 閱讀:160 作者:chen 欄目:開發(fā)技術(shù)

本篇內(nèi)容介紹了“用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

說到采集,無非就是遠(yuǎn)程獲取信息->提取所需內(nèi)容->分類存儲->讀取->展示

也算是簡單"小偷程序"的加強(qiáng)版吧

下面是對應(yīng)核心代碼(別拿去做壞事哦^_^)

所要采集的內(nèi)容是某游戲網(wǎng)站上的公告,如下圖:

用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫

可先利用file_get_contents和簡單正則獲取基本頁面信息

用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫

整理下基本信息,采集入庫:

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//獲取頁面內(nèi)容
  
  $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正則

  preg_match_all($pattern, $conn, $arr);//匹配內(nèi)容到arr數(shù)組

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二維數(shù)組[2]對應(yīng)id和[1]剛好一樣,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>";  
  }
   $id++;
   echo "正在采集URL數(shù)據(jù)列表$id...請稍后...";
   echo "<script>window.location='list.php?id=$id'</script>";

 }else{
   echo "采集數(shù)據(jù)結(jié)束。";
 }

?>

conn.php是數(shù)據(jù)庫連接文件

list.php是本頁面

由于要采集的數(shù)據(jù)是分頁顯示的,且頁面地址是規(guī)律遞增,所以我用了js跳轉(zhuǎn)代碼,利用id傳值控制采集的頁數(shù),也避免了for循環(huán)數(shù)目過大。

用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫

用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫

輕輕松松數(shù)據(jù)入庫,下篇文章寫關(guān)于具體url采集信息的過程。

“用PHP實現(xiàn)簡單采集數(shù)據(jù)入庫”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

php
AI