您好,登錄后才能下訂單哦!
這篇文章主要介紹了Python怎么使用正則表達(dá)式獲取網(wǎng)頁中所需要的信息,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
使用正則表達(dá)式的幾個(gè)步驟:
1、用import re 導(dǎo)入正則表達(dá)式模塊;
2、用re.compile()函數(shù)創(chuàng)建一個(gè)Regex對(duì)象;
3、用Regex對(duì)象的search()或findall()方法,傳入想要查找的字符串,返回一個(gè)Match對(duì)象;
4、調(diào)用Match對(duì)象的group()方法,返回匹配到的字符串。
在交互式環(huán)境中簡單嘗試一下,查詢字符串中的固話:
import re text = '小明家的固話是0755-123456,而小麗家的固話時(shí)0789-654321,小王家的電話是123456789'#用于檢測的字符串 ph_re = re.compile(r'\d{4}?-\d+') #創(chuàng)建Regex對(duì)象,匹配幾種電話的方式,\d表示0-9的數(shù)字,{4}表示前面的匹配4次,?表示可選,+表示出現(xiàn)1次或多次。 matchs1 = ph_re.findall(text) #findall()表示查找所有匹配項(xiàng),返回一個(gè)字符串 matchs2 = ph_re.search(text)#search(),查找第一次匹配的文本,返回一個(gè)對(duì)象。 print(matchs1) print(matchs2) matchs2.group()
返回的結(jié)果,是這樣的:
findall()方法返回的是一個(gè)字符串,可以直接打印出來。而search()方法返回的是一個(gè)對(duì)象,所以打印出來的是是如圖的第二行。
調(diào)用group(),對(duì)象返回匹配的結(jié)果。
最后,小王的電話之所以沒有匹配到,是因?yàn)?#39;-'沒有進(jìn)行可選即在其后加上‘?'。
下面進(jìn)行一個(gè)小的實(shí)驗(yàn),獲取某個(gè)網(wǎng)頁中所有的http/https網(wǎng)址,并計(jì)算有多少個(gè)。
首先是獲取HTML文件。這里要用到requests模塊。
# -*- coding: utf-8 -*- import requests import re def get_html(url): res = requests.get(url) res.encoding = 'utf-8' html = res.text return html
這里get_html函數(shù)返回的,其實(shí)就類似上面例子中的text,用來匹配的文本。
然后,創(chuàng)建正則表達(dá)式:
def get_addr(response): addr_regex = re.compile(r'''( (http://|https://)? #http/https (www)? (\.[a-z1-9A-Z]+) (\.com|\.cn) )''',re.VERBOSE)#匹配網(wǎng)址, matchs = [] for groups in addr_regex.findall(response): matchs.append(groups[0]) if len(matchs) == 0: print('沒有網(wǎng)址') return matchs
這里向re.compile(),傳入變量re.VERBOSE,作為第二個(gè)參數(shù),可以將正則表達(dá)式放在多行,并進(jìn)行注釋,如上。
返回一個(gè)matchs列表對(duì)象。
再來個(gè)啟動(dòng)函數(shù)。
def start(): url = 'http://news.163.com/18/0127/18/D966K4CO0001899N.html' a = get_html(url) b = get_addr(a) print('\n'.join(b)) print(str(len(b))) print('ok') if __name__ == '__main__': start()
這里傳入的url是我隨意找的一個(gè)新聞鏈接。
然后調(diào)用get_html()
和get_addr(),
就得到了想要的東西。str(len(b))
,為統(tǒng)計(jì)的數(shù)量。
測試的結(jié)果是類似這樣的:
這里似乎獲取一些URL,沒什么卵用。。。但是,如果結(jié)合前面的查詢新聞列表的方式,獲取批量url,
而創(chuàng)建的正則是xxx.jpg,然后調(diào)用os模塊,os.mkdir(folder)、os.chdir(folder),將獲取到的匹配結(jié)果寫入文件,放入某個(gè)文件夾。
那么就可以實(shí)現(xiàn),從某些網(wǎng)站上批量獲取jpg圖片,然后存入某個(gè)文件夾的爬蟲功能。實(shí)測,可行!
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Python怎么使用正則表達(dá)式獲取網(wǎng)頁中所需要的信息”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。