溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

模擬網(wǎng)絡(luò)爬蟲

發(fā)布時(shí)間:2020-06-20 08:50:17 來源:網(wǎng)絡(luò) 閱讀:183 作者:wzdouban 欄目:編程語言
/*
利用wget  指令和隊(duì)列 模擬實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲
利用自己的站點(diǎn)wzsts.host3v.com測(cè)試了一下
有一點(diǎn)錯(cuò)誤
文件運(yùn)行后拿到index.html
對(duì)于連接僅僅可以拿到 html 和htm 結(jié)尾的 而.com的沒有考慮(設(shè)計(jì)文件可能多)
一次測(cè)試后了解到如下問題:
1.文件應(yīng)該有樹形話還原網(wǎng)站目錄
2.文本記錄的連接應(yīng)該分類化
項(xiàng)目運(yùn)行需要 su 根權(quán)限進(jìn)行 
因?yàn)閙v命令
本項(xiàng)目?jī)H僅適合在linux下運(yùn)行
本項(xiàng)目給真真的linux 爬蟲做鋪墊
*/
#include<bits/stdc++.h>
using namespace std;
#include <stdlib.h>
#include <iostream>
#include <fstream>
string s("index.html");
queue<string>q;
 //略去一段
int main()
{
 //index.html
system("wget wzsts.host3v.com");

ofstream out("out.txt"); 
string mv("mv ");
string html(" html");
q.push(s);
  while(!q.empty())
   {
out<<q.front().c_str();   out<<"\n";  
if(strstr(q.front().c_str(),".html")||strstr(q.front().c_str(),".htm"))
  {
    fun(q.front().c_str()); 
    q.pop();
    string t("wget ");   t=t+s;  cout<<t.c_str()<<endl;
   system(t.c_str());
  }

string ss(q.front().c_str());
 ss=mv+ss.c_str()+html;     cout<<ss<<endl;
 system(ss.c_str());
   }

 out.close(); 
return 0;
}


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI