溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息

發(fā)布時間:2021-10-19 10:14:48 來源:億速云 閱讀:234 作者:柒染 欄目:大數(shù)據(jù)

今天就跟大家聊聊有關如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

爬蟲系列:

當我們出去旅游時,會看這個地方有哪些旅游景點,景點價格、開放時間、用戶的評論等。

如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
 

1、項目目標

獲取網(wǎng)站的景點名稱、開放時間、精彩點評、價格等信息。

 

2、涉及的庫和網(wǎng)站

先列出網(wǎng)址,如下所示:

網(wǎng)址:https://go.hao123.com/ticket?city=%E5%B9%BF%E5%B7%9E&theme=all&pn=1
 

網(wǎng)址city=%E5%B9%BF%E5%B7%9E指的是廣州這個城市、pn指的是頁數(shù)。

需要用到的庫:requests、lxml、pprint

 

3、具體實現(xiàn)

  1. 導入我們需要的庫
import requestsfrom lxml import etreefrom pprint import pprint
 
  1. 導入庫之后,我們定義一個class類,然后定義一個init方法繼承self再定義一個主函數(shù)main,定義一個init方法:首先準備url地址,headers,如下圖所示。
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
  1. 定義一個請求函數(shù),獲取響應數(shù)據(jù)函數(shù):
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
  1. 請求到數(shù)據(jù)后,我們需要把這個數(shù)據(jù)進行解析:
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
  1. 獲取景點名稱二級頁面鏈接:使用xpath查找鏈接路徑用谷歌瀏覽器選擇開發(fā)者工具或者按F12,選擇Elements按數(shù)字1、2操作找到旅游景點名稱二級頁面鏈接。
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
  1. 根據(jù)分析,我們可以擼下代碼。
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
  1. 獲取二級頁面鏈接后,發(fā)送請求獲取響應,解析數(shù)據(jù)。定義一個字典,保存景點名稱、開放時間、精彩點評、價格。使用判斷語句判斷里面內(nèi)容是否是空的。
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
  1. 最后定義一個main函數(shù),如下圖所示。
如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
 

4、效果展示

點擊綠色按鈕運行,將結(jié)果顯示在控制臺,如下圖所示。輸入你要爬取的頁數(shù)。

如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息  
 

5、小結(jié)

  1. 不建議抓取太多數(shù)據(jù),容易對服務器造成負載,淺嘗輒止即可。

  2. 希望通過這個項目,能夠幫助大家更好的了解旅游景點。

  3. 歡迎大家積極嘗試,有時候看到別人實現(xiàn)起來很簡單,但是到自己動手實現(xiàn)的時候,總會有各種各樣的問題,切勿眼高手低,勤動手,才可以理解的更加深刻。

看完上述內(nèi)容,你們對如何利用Python網(wǎng)絡爬蟲獲取旅游景點信息有進一步的了解嗎?如果還想了解更多知識或者相關內(nèi)容,請關注億速云行業(yè)資訊頻道,感謝大家的支持。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI