溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python3 使用selenium插件爬取蘇寧商家聯(lián)系電話

發(fā)布時間:2020-10-23 16:11:31 來源:腳本之家 閱讀:177 作者:菜鳥掙扎史 欄目:開發(fā)技術(shù)

Selenium簡介

Selenium是一個用于測試網(wǎng)站的自動化測試工具,支持各種瀏覽器包括Chrome、Firefox、Safari等主流界面瀏覽器,同時也支持phantomJS無界面瀏覽器。

此處使用了selenium插件 使用的是火狐瀏覽器 信息存儲到csv表格里面

前面詳細不多講如果條件不滿足自行百度安裝

# -*- coding: utf-8 -*-
"""
Created on Wed Dec 11 20:21:04 2019

@author: Administrator
"""
from selenium import webdriver
import time
import random
import csv
import codecs

#此處為要爬取的頁數(shù)默認為 50頁
yema = 50
#要爬取的網(wǎng)址 此處網(wǎng)址為搜索詳細產(chǎn)品出現(xiàn)的產(chǎn)品搜索結(jié)果頁
#注意蘇寧搜索行業(yè)詞出現(xiàn)的產(chǎn)品頁面是不一樣的
wangzhi = "https://search.suning.com/%E4%BC%91%E9%97%B2%E9%A3%9F%E5%93%81/"
#codevs 防止中文寫入時亂碼
f = codecs.open('suning.csv','a',encoding='utf-8')
csv_writer = csv.writer(f)
#谷歌
#browser = webdriver.chrom.webdirver.WebDriver(executable_path="chromedriver")
#火狐
browser1 = webdriver.Firefox(executable_path="geckodriver")

def browser_1(url,browser=browser1):

  #打開網(wǎng)頁
  browser.get(url)
  
  return(browser)

browser = browser_1(wangzhi)
#通過class找到元素
#input_guanggao = browser.find_element_by_class_name("close-btn")
#點一下
#input_guanggao.click()
#輸入
#input_txt.send_keys("111")
#翻頁鍵
#next_page = browser.find_element_by_class_name("next")
#數(shù)據(jù)提取
urls = []
nub = 1
for i in range(yema-1):
  print(i)
  #將滾動條拖到底部
  js="var q=document.documentElement.scrollTop=100000"
  browser.execute_script(js)
  time.sleep(random.randint(5,10))
  shops = browser.find_elements_by_class_name("sellPoint")
  for shop in shops:
    #print(shop)
    #print("*"*10)
    url = shop.get_attribute('href')
    vip = "/0000000000/"
    if vip not in url:
      urls.append(url)
      print(i,"--",nub,"--",url)
      nub += 1
  print(i,"頁")
  i += 1
  js="var q=document.documentElement.scrollTop=500"
  browser.execute_script(js)
  time.sleep(random.randint(3,5))
  next_page = browser.find_element_by_class_name("next")
  time.sleep(random.randint(3,5))
  next_page.click()
  time.sleep(random.randint(5,8))
print("---"*10)
for ul in urls:
  browser_shop = browser_1(ul)
  #公司名稱
  chead_companyName = browser_shop.find_element_by_id("chead_companyName")
  #電話
  chead_telPhone = browser_shop.find_element_by_id("chead_telPhone")
  #地址
  chead_companyAddress = browser_shop.find_element_by_id("chead_companyAddress")
  browser_shop.find_element_by_class_name("storname").click()
  #chead_telPhone.find_element_by_xpath("http://*[contains(text(),'13816391436')]").click()
  companyName = chead_companyName.text
  if companyName == "":
    companyName = "null"
  telPhone = chead_telPhone.text
  if telPhone == "":
    telPhone = "null"
  companyAddress = chead_companyAddress.text
  if companyAddress == "":
    companyAddress = "null"
  print(companyName,"==",telPhone,"==",companyAddress)
  csv_writer.writerow([companyName,telPhone,companyAddress])
  #browser_shop.close()
f.close()
print("結(jié)束")  

總結(jié)

以上所述是小編給大家介紹的Python3 使用selenium插件爬取蘇寧商家聯(lián)系電話,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對億速云網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI