要使用Python進(jìn)行網(wǎng)頁抓取,通常需要以下幾個(gè)步驟:
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
find()
和find_all()
方法查找特定的HTML元素,然后使用.text
屬性獲取元素的文本內(nèi)容。title = soup.find('title').text
links = soup.find_all('a')
for link in links:
print(link.get('href'))
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(title)
這只是一個(gè)簡單的示例,實(shí)際爬蟲可能會(huì)涉及到更復(fù)雜的邏輯,如處理JavaScript渲染的頁面、登錄、翻頁、遵循robots.txt規(guī)則等。在實(shí)際應(yīng)用中,你可能需要根據(jù)具體需求調(diào)整代碼。