溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

發(fā)布時(shí)間:2022-03-19 14:03:42 來(lái)源:億速云 閱讀:98 作者:iii 欄目:開(kāi)發(fā)技術(shù)

這篇文章主要介紹了Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)的相關(guān)知識(shí),內(nèi)容詳細(xì)易懂,操作簡(jiǎn)單快捷,具有一定借鑒價(jià)值,相信大家閱讀完這篇Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)文章都會(huì)有所收獲,下面我們一起來(lái)看看吧。

    1. 前言

    selenium 原本是一款自動(dòng)化測(cè)試工具,因其出色的頁(yè)面數(shù)據(jù)解析和用戶(hù)行為模擬能力而常用于爬蟲(chóng)程序中,致使爬蟲(chóng)程序的爬取過(guò)程更簡(jiǎn)單、快捷。

    爬蟲(chóng)程序與其它類(lèi)型程序相比較,本質(zhì)一樣,為數(shù)據(jù)提供處理邏輯,只是爬蟲(chóng)程序的數(shù)據(jù)來(lái)源于 HTML 代碼片段中。

    怎樣準(zhǔn)確查找到頁(yè)面中數(shù)據(jù)所在的標(biāo)簽(或叫節(jié)點(diǎn)、元素、組件)就成了爬蟲(chóng)程序的關(guān)鍵,只有這一步成立,后續(xù)的數(shù)據(jù)提取、清洗、匯總才有可能。

    相比較于 Beaufulsoup 模塊, selenium 底層依靠的是強(qiáng)大的瀏覽器引擎,在頁(yè)面解析能力上頗有王者的從容和決絕。

    本文將使用 selenium 自動(dòng)摸擬用戶(hù)的搜索行為,獲取不同商城上同類(lèi)型商品的價(jià)格信息,最終生成商品在不同商城上的價(jià)格差對(duì)比表。

    2、程序設(shè)計(jì)流程

    2.1 需求分析:

    本程序?qū)崿F(xiàn)了用戶(hù)不打開(kāi)瀏覽器、只需要輸入一個(gè)商品關(guān)鍵字,便能全自動(dòng)化的實(shí)現(xiàn)在不同商城中查找商品價(jià)格,并匯總出價(jià)格一些差異信息。

    1、程序運(yùn)行時(shí),提示使用者輸入需要搜索的商品關(guān)鍵字。

    本程序僅為探研 selenium 的奇妙之處,感受其王者風(fēng)范,沒(méi)有在程序結(jié)構(gòu)和界面上費(fèi)心力。

    2、使用 selenium 摸擬用戶(hù)打開(kāi)京東和蘇寧易購(gòu)首頁(yè)。

    為什么選擇京東和蘇寧易,而不選擇淘寶?

    因?yàn)檫@ 2 個(gè)網(wǎng)站使用搜索功能時(shí)沒(méi)有登錄驗(yàn)證需要,可簡(jiǎn)化本程序代碼。

    3、使用 selenium 在首頁(yè)的文本搜索框中自動(dòng)輸入商品關(guān)鍵字,然后自動(dòng)觸發(fā)搜索按鈕的點(diǎn)擊事件,進(jìn)入商品列表頁(yè)面。

    4、使用 selenium 分析、爬取不同商城中商品列表頁(yè)面中的商品名稱(chēng)和價(jià)格數(shù)據(jù)。

    5、對(duì)商品的價(jià)格數(shù)據(jù)做簡(jiǎn)單分析后,使用 CSV 模塊以文件方式保存。

    主要分析商品在不同商城上的平均價(jià)格、最低價(jià)格、最高體系的差異。

    當(dāng)然,如果有需要,可以借助其它的模塊或分析邏輯,得到更多的數(shù)據(jù)分析結(jié)論。

    2.2 認(rèn)識(shí) selenium

    雖然本文不深究 selenium API 的細(xì)節(jié),但是,既然要用它,其使用流程還是要面面俱到。

    1、安裝:

    selenium 是 python 第三庫(kù),使用前要安裝,安裝細(xì)節(jié)就沒(méi)必要在此多費(fèi)筆墨。

    pip3 install selenium

    除了安裝 selenium 模塊,還需要為它下載一個(gè)瀏覽器驅(qū)動(dòng)程序,否則它無(wú)法工作。

    什么是瀏覽器驅(qū)動(dòng)程序?為什么需要它?

    解釋這個(gè)問(wèn)題,需要從 selenium 的工作原理說(shuō)起。

    2、淺淡 selenium 的工作原理:

    Beautiful soup 使用特定的解析器程序解析 HTML 頁(yè)面。selenium 更干脆、直接借助瀏覽器的解析能力。通過(guò)調(diào)用瀏覽器的底層 API 完成頁(yè)面數(shù)據(jù)查找,也是跪服了,不僅爬取,還可以向?yàn)g覽器模擬用戶(hù)行為發(fā)送操作指令。

    有沒(méi)有感覺(jué)瀏覽器就是 selenium 手中的牽線(xiàn)木偶(玩弄瀏覽器于股掌之中)。 selenium 的工作就是驅(qū)動(dòng)瀏覽器,向?yàn)g覽器發(fā)送指令或接收瀏覽的反饋,此過(guò)程中,瀏覽器驅(qū)動(dòng)程序(webdriver)就起到了上傳下達(dá)的作用。

    典型的組件開(kāi)發(fā)模式。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    很顯然,因不同瀏覽器的內(nèi)核存在差異性,驅(qū)動(dòng)程序必然也不相同,所以,下載驅(qū)動(dòng)程序之前,請(qǐng)確定你使用的瀏覽器類(lèi)型和版本。

    本文使用谷歌瀏覽器,需要下載與谷歌瀏覽器對(duì)應(yīng)的 webdriver 驅(qū)動(dòng)程序。

    進(jìn)入 https://www.selenium.dev/downloads/ 網(wǎng)站,選擇 python 語(yǔ)言,選擇最新穩(wěn)定版本。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    請(qǐng)選擇與正使用的瀏覽版本一致的驅(qū)動(dòng)程序。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    下載完畢后,指定一個(gè)驅(qū)動(dòng)程序的存放目錄,本文存放在 D:\chromedriver\chromedriver.exe 。也可存放在瀏覽器的安裝目錄。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    2.3 功能函數(shù)設(shè)計(jì)

    準(zhǔn)備工作就緒后,開(kāi)始編碼:

    導(dǎo)入程序所需要的模塊,定義程序所需要的變量。

    from selenium import webdriver
    from selenium.webdriver.chrome.service import Service
    from selenium.webdriver.common.by import By
    import csv
    import time
    import math
    # 瀏覽器對(duì)象
    chrome_browser = None
    # 商品關(guān)鍵字
    search_keyword = None
    # 保存在京東商城搜索到的商品數(shù)據(jù),格式{商品名:價(jià)格}
    jd_data = {}
    # 保存在蘇寧商城搜索到的商品數(shù)據(jù),格式{商品名:價(jià)格}
    sn_data = {}
    • webdriver: 用來(lái)構(gòu)建瀏覽器對(duì)象,從底層設(shè)計(jì)角度講,是 selenium 和瀏覽器之間的接口層。selenium 向上為用戶(hù)提供高級(jí)應(yīng)用接口,向下通過(guò) webdriver 和瀏覽器無(wú)障礙溝通。

    • Service: webdriver 構(gòu)建瀏覽器對(duì)象時(shí)的參數(shù)類(lèi)型。

    • By: ** 封裝了查找頁(yè)面組件的各種方式。selenium** 向開(kāi)者提供了很多高級(jí)方法用來(lái)查詢(xún) HTML 頁(yè)面組件,如通過(guò)元素 ID、樣式、樣式選擇器、XPATH……By 封裝了這些方案。

    諸如:find_element_by_class_name( )、 find_element_by_id()、find_element_by_()、find_element_by_tag_name()、find_element_by_class_name()、find_element_by_xpath()、find_element_by_css_selector()

    以上方法已經(jīng)被標(biāo)注為過(guò)時(shí),請(qǐng)使用 find_element( ) 方法,配合 By 對(duì)象切換方式。

    • csv: 用來(lái)把獲取到的數(shù)據(jù)以 csv 格式保存。

    • time: 時(shí)間模塊,用來(lái)模擬網(wǎng)絡(luò)延遲。

    • math: 數(shù)學(xué)模塊,輔助數(shù)據(jù)分析。

    初始化函數(shù):初始化瀏覽器對(duì)象和用戶(hù)輸入數(shù)據(jù)

    '''
    初始瀏覽器對(duì)象
    '''
    def init_data():
        # 驅(qū)動(dòng)程序存放路徑
        webdriver_path = r"D:\chromedriver\chromedriver.exe"
        service = Service(webdriver_path)
        # 構(gòu)建瀏覽器對(duì)象
        browser = webdriver.Chrome(service=service)
        # 等待瀏覽器就緒
        browser.implicitly_wait(10)
        return browser
    
    '''
    初始用戶(hù)輸入的商品名稱(chēng)關(guān)鍵字
    '''
    def input_search_key():
        info = input("請(qǐng)輸入商品關(guān)鍵字:")
        return info

    查詢(xún)京東商品信息。在京東商城查詢(xún)商品,分兩個(gè)步驟,在首頁(yè)輸入商品關(guān)鍵字,點(diǎn)擊搜索后,在結(jié)果頁(yè)面查詢(xún)價(jià)格信息。完整代碼如下:

    '''
    進(jìn)入京東商城查詢(xún)商品信息
    '''
    def search_jd():
        global jd_data
        products_names = []
        products_prices = []
        # 京東首頁(yè)
        jd_index_url = r"https://www.jd.com/"
        # 打開(kāi)京東首面
        try:
            if chrome_browser is None:
                raise Exception()
            else:
                # 打開(kāi)京東首頁(yè)
                chrome_browser.get(jd_index_url)
                # 模擬網(wǎng)絡(luò)延遲
                chrome_browser.implicitly_wait(10)
                # 找到文本輸入組件
                search_input = chrome_browser.find_element(By.ID, "key")
                # 在文本框中輸入商品關(guān)鍵字
                search_input.send_keys(search_keyword)
                chrome_browser.implicitly_wait(5)
                # 找到搜索按鈕 這里使用 CSS 選擇器方案
                search_button = chrome_browser.find_element(By.CSS_SELECTOR, "#search > div > div.form > button")
                # 觸發(fā)按鈕事件
                search_button.click()
                chrome_browser.implicitly_wait(5)
                # 獲取所有打開(kāi)的窗口(當(dāng)點(diǎn)擊按鈕后應(yīng)該有 2 個(gè))
                windows = chrome_browser.window_handles
                # 切換新打開(kāi)的窗口,使用負(fù)索引找到最后打開(kāi)的窗口
                chrome_browser.switch_to.window(windows[-1])
                chrome_browser.implicitly_wait(5)
                # 獲取商品價(jià)格
                product_price_divs = chrome_browser.find_elements(By.CLASS_NAME, "p-price")
                for i in range(5):
                    div = product_price_divs[i]
                    if len(div.text) != 0:
                        # 刪除價(jià)格前面的美元符號(hào)
                        products_prices.append(float(div.text[1:]))
                # 獲取商品名稱(chēng)
                product_name_divs = chrome_browser.find_elements(By.CLASS_NAME, "p-name")
                chrome_browser.implicitly_wait(10)
                for i in range(5):
                    div = product_name_divs[i]
                    if len(div.text) != 0:
                        products_names.append(div.text)
    
                jd_data = dict(zip(products_names, products_prices))
    
                jd_data["平均價(jià)格"] = sum(products_prices) / len(products_prices)
                jd_data["最低價(jià)格"] = min(products_prices)
                jd_data["最高價(jià)格"] = max(products_prices)
                # 使用 CSV 模塊寫(xiě)入文檔
                csv_save("京東商城", jd_data)
    
        except Exception as e:
            print(e)

    chrome_browser: 由 webdriver 構(gòu)建出來(lái)的對(duì)瀏覽器映射的對(duì)象,selenium 通過(guò)此對(duì)象控制對(duì)瀏覽器的所有操作。

    此對(duì)象有一個(gè) find_element( ) 核心方法,用來(lái)查找(定位)HTML 頁(yè)面元素。查找時(shí),可以通過(guò) By 對(duì)象指定查找的方式(這里使用了工廠(chǎng)設(shè)計(jì)模式), By 的取值可以是 ID、CSS_SELECTOR、XPATH、CLASS_NAME、CSS_SELECTOR、TAG_NAME、LINK_TEX、PARTIAL_LINK_TEXT。

    打開(kāi)京東首頁(yè)后,先定位定位文本搜索框和搜索按鈕。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    使用瀏覽器的開(kāi)發(fā)者工具,檢查到文本框的源代碼是一段 input html 片段,為了精確地定位到此組件,一般先試著分析此組件有沒(méi)有獨(dú)有的屬性或特征值,id 是一個(gè)不錯(cuò)的選擇。html 語(yǔ)法規(guī)范 id 值應(yīng)該是一個(gè)唯一值。

    search_input = chrome_browser.find_element(By.ID, "key")

    找到組件后,可以對(duì)此組件進(jìn)行一系列操作,常用的操作:

    • text 屬性: 獲取組件的文本內(nèi)容。

    • send_keys( ) 方法:為此組件賦值。

    • get_attribute( ) 方法:獲取組件的屬性值。

    這里使用 send_keys 給文本組件賦予用戶(hù)輸入商品關(guān)鍵字。

    search_input.send_keys(search_keyword)

    再查找搜索按鈕組件:

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    按鈕組件是一段 button html 代碼,沒(méi)有過(guò)于顯著的特性屬性值,為了找到這個(gè)唯一組件,可以使用 XPATH 或 CSS 選擇器方式。右擊此代碼片段,在彈出的快捷菜單中找到“復(fù)制”命令,再找到此組件的 CSS選擇器值。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    search_button = chrome_browser.find_element(By.CSS_SELECTOR, "#search > div > div.form > button")

    調(diào)用按鈕組件的 click() 方法,模擬用戶(hù)點(diǎn)擊操作,此操作會(huì)打開(kāi)新窗口,并以列表方式顯示搜索出來(lái)的商品數(shù)據(jù)。

    search_button.click()

    selenium 接收到瀏覽器打開(kāi)新窗后的反饋后,可以使用 window_handles 屬性獲取瀏覽器中已經(jīng)打開(kāi)的所有窗口,并以列表的方式存儲(chǔ)每一個(gè)窗口的操作引用。

    windows = chrome_browser.window_handles

    對(duì)頁(yè)面元素進(jìn)行定位查找時(shí),有一個(gè)當(dāng)前窗口(當(dāng)前可以、正在操作的窗口)的概念。剛開(kāi)始是在首頁(yè)窗口操作,現(xiàn)在要在搜索結(jié)果窗口中進(jìn)行操作,所以要切換到剛打開(kāi)的新窗口。使用負(fù)索引得到剛打開(kāi)的窗口(剛打開(kāi)的窗口一定是最后一個(gè)窗口)。

    chrome_browser.switch_to.window(windows[-1])

    注意,這時(shí)切換到了搜索結(jié)果窗口,便可以在這個(gè)窗口中搜索所需要組件。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    在這個(gè)頁(yè)面中,只需要獲取前 5 名的商品具體信息,包括商品名、商品價(jià)格。至于具體要獲取什么數(shù)據(jù),可以根據(jù)自己的需要定奪。本程序只需要商品的價(jià)格和名稱(chēng),則檢查頁(yè)面,找到對(duì)應(yīng)的 html 片段。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    商品名信息存放在一個(gè) div 片段中,此 div 有一個(gè)值為 p-name 的 class 屬性??梢允褂?CSS-NAME 方式獲取,因?yàn)樗械纳唐凡捎孟嗤文0?,這里使用 find_elements( ) 方法即可。

    product_name_divs = chrome_browser.find_elements(By.CLASS_NAME, "p-name")

    find_elements 方法返回具有相同 CSS-NAME 的組件列表,編寫(xiě)代碼迭代出每一個(gè)組件,并獲取數(shù)據(jù),然后存儲(chǔ)在商品名稱(chēng)列表中。

    for i in range(5):
        div = product_name_divs[i]
        if len(div.text) != 0:
           products_names.append(div.text)

    以同樣的方式,獲取到價(jià)格數(shù)據(jù)。再把商品名稱(chēng)和價(jià)格數(shù)據(jù)制成字典,并對(duì)價(jià)格數(shù)據(jù)做簡(jiǎn)單分析。

     jd_data = dict(zip(products_names, products_prices))
    jd_data["平均價(jià)格"] = sum(products_prices) / len(products_prices)
    jd_data["最低價(jià)格"] = min(products_prices)
    jd_data["最高價(jià)格"] = max(products_prices)
    csv_save("京東商城", jd_data)

    以 CSV 格式存儲(chǔ)從京東商城上爬取下來(lái)的數(shù)據(jù)。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    獲取蘇寧易購(gòu)上的商品數(shù)據(jù)。與從京東上獲取數(shù)據(jù)的邏輯一樣(兩段代碼可以整合到一個(gè)函數(shù)中,為了便于理解,本文分開(kāi)編寫(xiě))。兩者的區(qū)別在于頁(yè)面結(jié)構(gòu)、承載數(shù)據(jù)的頁(yè)面組件不一樣或組件的屬性設(shè)置不一樣。

    def search_sn():
        global sn_data
        # 保存商品名稱(chēng)
        products_names = []
        # 保存商品價(jià)格
        products_prices = []
        # 蘇寧首頁(yè)
        sn_index_url = r"https://www.suning.com/"
        try:
            if chrome_browser is None:
                raise Exception()
            else:
                # 打開(kāi)首頁(yè)
                chrome_browser.get(sn_index_url)
                # 摸擬網(wǎng)絡(luò)延遲
                chrome_browser.implicitly_wait(10)
                # 查找文本輸入組件
                search_input = chrome_browser.find_element(By.ID, "searchKeywords")
                # 在文本框中輸入商品關(guān)鍵字
                search_input.send_keys(search_keyword)
                time.sleep(2)
                # 找到搜索按鈕 這里使用 CSS 選擇器方案
                search_button = chrome_browser.find_element(By.ID, "searchSubmit")
                # 觸發(fā)按鈕事件
                search_button.click()
                time.sleep(3)
                # 獲取所有打開(kāi)的窗口(當(dāng)點(diǎn)擊按鈕后應(yīng)該有 2 個(gè))
                windows = chrome_browser.window_handles
                # 切換新打開(kāi)的窗口,使用負(fù)索引找到最后打開(kāi)的窗口
                chrome_browser.switch_to.window(windows[-1])
                chrome_browser.implicitly_wait(20)
                # 獲取商品價(jià)格所在標(biāo)簽
                product_price_divs = chrome_browser.find_elements(By.CLASS_NAME, "def-price")
                # 僅查看前 5 個(gè)商品信息
                for i in range(5):
                    div = product_price_divs[i]
                    # 刪除價(jià)格前面的美元符號(hào)
                    if len(div.text) != 0:
                        products_prices.append(float(div.text[1:]))
                chrome_browser.implicitly_wait(10)
                # 獲取商品名稱(chēng)
                product_name_divs = chrome_browser.find_elements(By.CLASS_NAME, "title-selling-point")
                for i in range(5):
                    products_names.append(product_name_divs[i].text)
                #
                sn_data = dict(zip(products_names, products_prices))
                sn_data["平均價(jià)格"] = sum(products_prices) / len(products_prices)
                sn_data["最低價(jià)格"] = min(products_prices)
                sn_data["最高價(jià)格"] = max(products_prices)
                # 使用 CSV 模塊寫(xiě)入文檔
                csv_save("蘇寧商城", sn_data)
    
        except Exception as e:
            print(e)

    獲取到蘇寧易購(gòu)上的商品數(shù)據(jù)后,同樣以 CSV 格式存儲(chǔ)。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    存儲(chǔ)最終的分析結(jié)果。這里僅分析了兩個(gè)商城上同類(lèi)型商品的平均價(jià)格、最低價(jià)、最高價(jià)的差異性。

    def price_result():
        if len(jd_data) != 0 and len(sn_data) != 0:
            with open("d:/商品比較表.csv", "w", newline='') as f:
                csv_writer = csv.writer(f)
                jd_name = list(jd_data.keys())
                jd_price = list(jd_data.values())
                sn_price = list(sn_data.values())
                csv_writer.writerow(["比較項(xiàng)", "京東價(jià)格", "蘇寧價(jià)格", "價(jià)格差"])
                for i in range(5, len(jd_price)):
                    csv_writer.writerow([jd_name[i], jd_price[i], sn_price[i], math.fabs(jd_price[i] - sn_price[i])])

    保存了兩個(gè)商城上商品價(jià)格的平均值、最小值、最大值以及絕對(duì)差。

    Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)

    最終測(cè)試代碼

    if __name__ == '__main__':
        search_keyword = input_search_key()
        chrome_browser = init_data()
        search_jd()
        time.sleep(2)
        search_sn()
        price_result()

    請(qǐng)輸入商品關(guān)鍵字:華為meta 40

    關(guān)于“Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對(duì)“Pythonr基于selenium怎么實(shí)現(xiàn)不同商城的商品價(jià)格差異分析系統(tǒng)”知識(shí)都有一定的了解,大家如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

    向AI問(wèn)一下細(xì)節(jié)

    免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

    AI