溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Python寫(xiě)爬蟲(chóng)都會(huì)使用什么庫(kù)

發(fā)布時(shí)間:2020-07-09 15:21:53 來(lái)源:億速云 閱讀:150 作者:Leah 欄目:編程語(yǔ)言

今天就跟大家聊聊有關(guān)Python寫(xiě)爬蟲(chóng)都會(huì)使用什么庫(kù),可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

Python爬蟲(chóng),全稱(chēng)Python網(wǎng)絡(luò)爬蟲(chóng),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或腳本,主要用于抓取證券交易數(shù)據(jù)、天氣數(shù)據(jù)、網(wǎng)站用戶(hù)數(shù)據(jù)和圖片數(shù)據(jù)等,Python為支持網(wǎng)絡(luò)爬蟲(chóng)正常功能實(shí)現(xiàn),內(nèi)置了大量的庫(kù),主要有幾種類(lèi)型。下面本篇文章就來(lái)給大家介紹。

一、Python爬蟲(chóng)網(wǎng)絡(luò)庫(kù)

Python爬蟲(chóng)網(wǎng)絡(luò)庫(kù)主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。

二、Python網(wǎng)絡(luò)爬蟲(chóng)框架

Python網(wǎng)絡(luò)爬蟲(chóng)框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。

三、HTML/XML解析器?

● lxml:C語(yǔ)言編寫(xiě)高效HTML/ XML處理庫(kù)。支持XPath。

● cssselect:解析DOM樹(shù)和CSS選擇器。

● pyquery:解析DOM樹(shù)和jQuery選擇器。

● BeautifulSoup:低效HTML/ XML處理庫(kù),純Python實(shí)現(xiàn)。

● html5lib:根據(jù)WHATWG規(guī)范生成HTML/ XML文檔的DOM。該規(guī)范被用在現(xiàn)在所有的瀏覽器上。

● feedparser:解析RSS/ATOM feeds。

● MarkupSafe:為XML/HTML/XHTML提供了安全轉(zhuǎn)義的字符串。

● xmltodict:一個(gè)可以讓你在處理XML時(shí)感覺(jué)像在處理JSON一樣的Python模塊。

● xhtml2pdf:將HTML/CSS轉(zhuǎn)換為PDF。

● untangle:輕松實(shí)現(xiàn)將XML文件轉(zhuǎn)換為Python對(duì)象。

四、文本處理

用于解析和操作簡(jiǎn)單文本的庫(kù)。

● difflib:(Python標(biāo)準(zhǔn)庫(kù))幫助進(jìn)行差異化比較。

● Levenshtein:快速計(jì)算Levenshtein距離和字符串相似度。

● fuzzywuzzy:模糊字符串匹配。

● esmre:正則表達(dá)式加速器。

● ftfy:自動(dòng)整理Unicode文本,減少碎片化。

五、特定格式文件處理

解析和處理特定文本格式的庫(kù)。

● tablib:一個(gè)把數(shù)據(jù)導(dǎo)出為XLS、CSV、JSON、YAML等格式的模塊。

● textract:從各種文件中提取文本,比如 Word、PowerPoint、PDF等。

● messytables:解析混亂的表格數(shù)據(jù)的工具。

● rows:一個(gè)常用數(shù)據(jù)接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT:將來(lái)還會(huì)提供更多?。?/p>

看完上述內(nèi)容,你們對(duì)Python寫(xiě)爬蟲(chóng)都會(huì)使用什么庫(kù)有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI