溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

php爬蟲原型

發(fā)布時間:2020-08-10 15:17:12 來源:網(wǎng)絡 閱讀:346 作者:Lee_吉 欄目:web開發(fā)
/*
 @desc:爬蟲原型
 @author [Lee] <[<complet@163.com>]>
 @param url 初始url
 @param callback 處理業(yè)務的回調函數(shù)
 @param 挖掘url的深度 默認3
 */
function crawl($url,$callback,$depth = 3){
    if($depth > 0){
        $depth--;
        $http = new http($url);
        $content = $http->get()->exec();
        // 業(yè)務處理開始
        call_user_func($callback,$content);
        // 業(yè)務處理結束
        $preg = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';
        $bool = preg_match_all($preg,$content,$res);
        $urls = array();
        if($bool){
            $urls = $res[1];
        }
                $urls = array_unique($urls);
        $info = parse_url($url);
        $scheme = $info["scheme"]?:'http';
        $user = $info["user"];
        $pass = $info["pass"];
        $host = $info["host"];
        $port = $info["port"];
        $path = $info["path"];
        $url = $scheme . '://';
        if ($user && $pass) {
            $url .= $user . ":" . $pass . "@";
        }
        $url .= $host;
        if ($port) {
            $url .= ":" . $port;
        } 
        $url .= $path;
        if (is_array($urls)) {
            foreach ($urls as $u) {
                if (preg_match('/^http/', $u)) {
                    $returl = $u;
                } else {
                    $real = $url . '/' . $u;
                    $returl = $real;
                }
                crawl($returl,$callback,$depth);
            }
        }
    }
}
向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。

AI