<acronym id="rk4ey"><button id="rk4ey"></button></acronym>

^{<p id="rk4ey"></p>}

^{<p id="rk4ey"><thead id="rk4ey"></thead></p>}

<ruby id="rk4ey"></ruby>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

怎么用python爬蟲豆瓣電影數(shù)據(jù)

發(fā)布時(shí)間：2021-12-18 14:00:11 來源：億速云閱讀：196 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要介紹“怎么用python爬蟲豆瓣電影數(shù)據(jù)”，在日常操作中，相信很多人在怎么用python爬蟲豆瓣電影數(shù)據(jù)問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”怎么用python爬蟲豆瓣電影數(shù)據(jù)”的疑惑有所幫助！接下來，請跟著小編一起來學(xué)習(xí)吧！

下面我們從國內(nèi)高匿代理IP 獲得代理IP數(shù)據(jù)。

import os
import time
import requests
from bs4 import BeautifulSoup
#num獲取num頁 國內(nèi)高匿ip的網(wǎng)頁中代理數(shù)據(jù)def 
fetch_proxy(num):
    #修改當(dāng)前工作文件夾
    os.chdir(r'/Users/apple888/PycharmProjects/proxy IP')
    api = 'http://www.xicidaili.com/nn/{}'
    header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS 
                             X 10_12_3) AppleWebKit/537.36 (KHTML, 
                      like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
    fp = open('host.txt', 'a+', encoding=('utf-8'))    
    for i in range(num+1):
        api = api.format(1)
        respones = requests.get(url=api, headers=header)
        soup = BeautifulSoup(respones.text, 'lxml')
        container = soup.find_all(name='tr',attrs={'class':'odd'})        
        for tag in container:            
            try:
                con_soup = BeautifulSoup(str(tag),'lxml')
                td_list = con_soup.find_all('td')
                ip = str(td_list[1])[4:-5]
                port = str(td_list[2])[4:-5]
                IPport = ip + '\t' + port + '\n'
                fp.write(IPport)            
            except Exception as e:
                print('No IP！')
        time.sleep(1)
    fp.close()

我們準(zhǔn)備抓 國內(nèi)高匿代理IP網(wǎng) 的十個(gè)頁面的代理

怎么用python爬蟲豆瓣電影數(shù)據(jù)

但是有代理IP還不行，因?yàn)槲覀儾恢肋@代理能不能用，是否有效。

下面我們用百度網(wǎng)進(jìn)行檢驗(yàn)（大公司不怕咱們短時(shí)間內(nèi)高頻率訪問），上代碼：

import os
import time
import requests
from bs4 import BeautifulSoup
def test_proxy():
    N = 1
    os.chdir(r'/Users/apple888/PycharmProjects/proxy IP')
    url = 'https://www.baidu.com'
    fp = open('host.txt', 'r')
    ips = fp.readlines()
    proxys = list()    
    for p in ips:
        ip = p.strip('\n').split('\t')
        proxy = 'http:\\' + ip[0] + ':' + ip[1]
        proxies = {'proxy': proxy}
        proxys.append(proxies)    
       for pro in proxys:        
            try:
            s = requests.get(url, proxies=pro)
            print('第{}個(gè)ip：{} 狀態(tài){}'.format(N,pro,s.status_code))        except Exception as e:
            print(e)
        N+=1

到此，關(guān)于“怎么用python爬蟲豆瓣電影數(shù)據(jù)”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識，請繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
CRC16 編碼器的Verilog HDL 實(shí)現(xiàn)是怎樣的
下一篇新聞：
如何進(jìn)行springboot配置templates直接訪問的實(shí)現(xiàn)

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<i id="glnb9"></i>

<pre id="glnb9"></pre>

<pre id="glnb9"></pre>