<small id="h9ns1"></small>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python黑客怎么打造快速編寫信息收集器

發(fā)布時間：2021-12-04 10:35:05 來源：億速云閱讀：161 作者：柒染欄目：網(wǎng)絡(luò)安全

這篇文章將為大家詳細講解有關(guān)Python黑客怎么打造快速編寫信息收集器，文章內(nèi)容質(zhì)量較高，因此小編分享給大家做個參考，希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

環(huán)境：
Python 3
模塊：
Lxml
Request
Beautifulsoup
開始：
首先看一下目標站：

http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-1.html

Python黑客怎么打造快速編寫信息收集器

這里有一個目錄：我們點擊第一個北京市，就可以看到其中的表格，和北京市所有的大學(xué)名字

我們的目標就是吧每一個城市的所有大學(xué)，分別放在不同的txt文本中。

Python黑客怎么打造快速編寫信息收集器

正式開始分析：

我們審查元素，我們要取的目標為學(xué)校名稱 Python黑客怎么打造快速編寫信息收集器

可以清晰的看到網(wǎng)頁的結(jié)構(gòu)，我們要取的目標在一個tbodyz中，并在一個tr標簽內(nèi)。繼續(xù)分析下一個名字找到他們的規(guī)律

Python黑客怎么打造快速編寫信息收集器

可以看到每個名字都在一個單獨的tr標簽中。

好我們在看一下這個北京市的url和第二個城市網(wǎng)頁對應(yīng)的url。

http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-2.html

http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-3.html

可以看到最后的數(shù)字不同，從二開始。依次增加。好我們已經(jīng)基本獲得了目標的信息，下面我們開始激動人心的敲代碼。

我們先從一頁開始。

#coding=utf-8import requestsimport lxmlfrom bs4 import BeautifulSoup as bs #導(dǎo)入我們的BF,并且命名為bs，名字太長了偷個懶。def school(): #定義一個函數(shù)        url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-2.html"        r=requests.get(url=url) #利用requests請求我們的目標網(wǎng)站。        soup=bs(r.content,"lxml")#利用beautifulsoup解析，將返回內(nèi)容賦值給soup        print (soup)       #打印出內(nèi)容。if __name__ == '__main__':  #程序開始運行的地方，需要調(diào)用剛才設(shè)置的函數(shù)，不然程序是不會運行的。    school()

寫完之后點一下運行，成功返回發(fā)現(xiàn)并不需要設(shè)置頭信息。省去了一些麻煩。

Python黑客怎么打造快速編寫信息收集器

現(xiàn)在我們開始取內(nèi)容：

我們的內(nèi)容在<tr height=”29”>這個標簽中，我們以這個標簽為標準，查找所有的這個標簽中的內(nèi)容。代碼是這樣的。運行

def school(): url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-2.html"

r=requests.get(url=url)

soup=bs(r.content,"lxml") content=soup.find_all(name="tr",attrs={"height":"29"})

print(content)

Python黑客怎么打造快速編寫信息收集器 Ok 成功返回了我們需要的東西，但是有很多其他沒有用的選項，現(xiàn)在我們要去掉這些東西。繼續(xù)編輯school函數(shù)。我們需要用循環(huán)遍歷我們的取出的內(nèi)容。讓每一個tr標簽中的內(nèi)容作為一個獨立的列表，然后利用find_all方法找出而每一個td標簽為list中的內(nèi)容，方便我們?nèi)?shù)。學(xué)校名稱位于第二個td標簽中，在list中的位置則為1.代碼如下。

def school():        url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-2.html"        r=requests.get(url=url)        soup=bs(r.content,"lxml")        content=soup.find_all(name="tr",attrs={"height":"29"})
        for content1 in content:
            soup_content=bs(str(content1),"lxml")
            soup_content1=soup_content.find_all(name="td")
            print(soup_content1[1])

Python黑客怎么打造快速編寫信息收集器

加好之后我們運行代碼。發(fā)現(xiàn)報錯了，不慌我們看一下報錯的內(nèi)容

報錯大意為列出索引超出范圍。但是我們發(fā)現(xiàn)還是成功返回了一個內(nèi)容，我們再去分析一下網(wǎng)頁源代碼。

Python黑客怎么打造快速編寫信息收集器

可以看到前三個tr標簽，我們成功的取到了第一個tr標簽中的”學(xué)校名稱”這行的內(nèi)容，然后第二個tr報錯。我們的代碼打印的的是list的第二個內(nèi)容，但是在第二個tr標簽中只有一個內(nèi)容。然后剩下的都恢復(fù)了正常，我們怎么解決這個問題呢。可以用python的異常處理。當他報錯時，然后忽略錯誤繼續(xù)運行。把代碼變成這樣。

def school():        url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-2.html"        r=requests.get(url=url) 
        soup=bs(r.content,"lxml")
        content=soup.find_all(name="tr",attrs={"height":"29"})
        for content1 in content:
            try:               soup_content=bs(str(content1),"lxml")                soup_content1=soup_content.find_all(name="td")
                print(soup_content1[1])
            except IndexError:
                pass

再次運行。

Python黑客怎么打造快速編寫信息收集器

成功了，但這只是一個城市，我們還需要其他的。接下來我們需要用一個for循環(huán)，從2到33，每次加1，并修改url中的控制頁面的參數(shù)中。

#coding=utf-8import requestsimport lxmlfrom bs4 import BeautifulSoup as bs 
def school():     for i in range(2,34,1):
        url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-%s.html"%(str(i))
        r=requests.get(url=url)
        soup=bs(r.content,"lxml")
        content=soup.find_all(name="tr",attrs={"height":"29"})
        for content1 in content:
            try:
                soup_content=bs(str(content1),"lxml")
                soup_content1=soup_content.find_all(name="td")
                print(soup_content1[1])
            except IndexError:
                passif __name__ == '__main__': 
    school()

Python黑客怎么打造快速編寫信息收集器

我們可以看到不僅有北京的學(xué)校，還有天津的，當然下面所有的學(xué)校都打印出來了。我們還要去掉標簽。修改打印為如下代碼，這樣就只會看到文本。

print(soup_content1[1].string)

主要功能就寫完了，我們還需要，將他們分別存放在不同的文件夾內(nèi)并保持為特定的文件名，當然我們不可能手動輸入每個城市的名字。還記的我們剛才報錯的地方嗎，那個地方剛剛好有我們要的城市名稱。理一下思路，我們首先從網(wǎng)頁中取出城市名稱，并新建一個對應(yīng)城市名稱的TXT文本，然后把我們?nèi)〉玫膬?nèi)容分別放入不同的文件內(nèi)。為了防止報錯停止，我們再加一個異常處理好讓我們繼續(xù)把我們的代碼寫完。

def school():    for i in range(2,34,1):
        try:
            url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-%s.html"%(str(i))
            r=requests.get(url=url)
            soup=bs(r.content,"lxml")
            content2=soup.find_all(name="td",attrs={"colspan":"7"})[0].string
            f1=open("%s.txt"%(content2),"w")
            content=soup.find_all(name="tr",attrs={"height":"29"})
            for content1 in content:
                try:
                    soup_content=bs(str(content1),"lxml")
                    soup_content1=soup_content.find_all(name="td")
                    f1.write(soup_content1[1].string+"/n")
                    print(soup_content1[1].string)
                except IndexError:
                    pass        except IndexError:
            pass

Python黑客怎么打造快速編寫信息收集器完整代碼：

#coding=utf-8import requestsimport lxmlfrom bs4 import BeautifulSoup as bsdef school():    for i in range(2,34,1):
        try:
            url="http://gaokao.chsi.com.cn/gkxx/zszcgd/dnzszc/201706/20170615/1611254988-%s.html"%(str(i))
            r=requests.get(url=url)
            soup=bs(r.content,"lxml")
            content2=soup.find_all(name="td",attrs={"colspan":"7"})[0].string
            f1=open("%s.txt"%(content2),"w")
            content=soup.find_all(name="tr",attrs={"height":"29"})
            for content1 in content:
                try:
                    soup_content=bs(str(content1),"lxml")
                    soup_content1=soup_content.find_all(name="td")
                    f1.write(soup_content1[1].string+"/n")
                    print(soup_content1[1].string)
                except IndexError:
                    pass        except IndexError:
            passif __name__ == '__main__':
    school()

總結(jié)：
這個程序的難度并不大，也沒有用什么多線程，類，非常的簡單，并不一定是代碼越多的程序越好，有的時候我們只是想快速的完成我們的要實現(xiàn)的目標，這時候代碼就要越簡潔越好。希望可以給初學(xué)者一些好的學(xué)習(xí)思路，最后我之所以要再加一個異常處理，是因為又出現(xiàn)了一個和上面一樣的報錯，而為了快速實現(xiàn)我們的目標，我直接嘗試添加一個異常處理，程序正常運行。

關(guān)于Python黑客怎么打造快速編寫信息收集器就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Suse11.4 + DB2 10.5fp8 pureScale如何安裝部署
下一篇新聞：
網(wǎng)頁里段落的html標簽是哪些

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼