溫馨提示×

怎么用python爬取多個網(wǎng)頁內容

小億
182
2023-12-14 20:56:42
欄目: 編程語言

要用Python爬取多個網(wǎng)頁內容,可以使用requests庫來發(fā)送HTTP請求,然后使用BeautifulSoup庫來解析HTML頁面。以下是一個示例代碼,用于爬取多個網(wǎng)頁的標題和正文內容:

import requests
from bs4 import BeautifulSoup

# 定義要爬取的多個網(wǎng)頁URL列表
urls = [
    'http://www.example.com/page1',
    'http://www.example.com/page2',
    'http://www.example.com/page3'
]

for url in urls:
    # 發(fā)送HTTP GET請求獲取網(wǎng)頁內容
    response = requests.get(url)

    # 使用BeautifulSoup解析HTML頁面
    soup = BeautifulSoup(response.content, 'html.parser')

    # 獲取網(wǎng)頁標題
    title = soup.title.string

    # 獲取網(wǎng)頁正文內容
    content = soup.find('body').get_text()

    # 打印網(wǎng)頁標題和正文內容
    print('標題:', title)
    print('正文內容:', content)

上述代碼中,首先定義了要爬取的多個網(wǎng)頁URL列表。然后使用循環(huán)遍歷每個URL,發(fā)送HTTP GET請求獲取網(wǎng)頁內容。接著使用BeautifulSoup庫解析HTML頁面,獲取網(wǎng)頁標題和正文內容。最后打印出標題和正文內容。

請注意,代碼中使用的是requests庫來發(fā)送HTTP請求,所以需要先安裝這個庫??梢允褂胮ip命令進行安裝:

pip install requests

同樣地,還需要安裝BeautifulSoup庫:

pip install beautifulsoup4

需要根據(jù)自己的需求對代碼進行適當?shù)男薷?,例如處理異常、保存?shù)據(jù)等。

0