<samp id="mqujt"></samp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

python如何爬取電影并下載

發(fā)布時(shí)間：2021-10-18 15:35:36 來源：億速云閱讀：304 作者：小新欄目：編程語言

這篇文章給大家分享的是有關(guān)python如何爬取電影并下載的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，一起跟隨小編過來看看吧。

一、概述

對(duì)于一個(gè)宅男，喜歡看電影，每次打開電影網(wǎng)站，各種彈出的廣告，很是麻煩，還是要自己去復(fù)制下載鏈接到迅雷上粘貼并下載，這個(gè)過程中還有選擇困難癥;這一系列的動(dòng)作讓人甚是不爽，不如有下好的，點(diǎn)著看就好了;作為一個(gè)python愛好者，結(jié)合對(duì)爬蟲的一點(diǎn)小了解，于是周末花了點(diǎn)時(shí)間用python寫了一個(gè)爬取某電影網(wǎng)站上的最新電影板塊;
思路：
爬蟲針對(duì)某電影網(wǎng)站，收集電影名，下載鏈接，評(píng)分，等信息;當(dāng)天更新的電影，特別的打印出來;同時(shí)通過評(píng)分調(diào)用迅雷下載，當(dāng)然先判斷下，是否已經(jīng)下載過了，再?zèng)Q定是否下載;然后，就是可以看了～

本次版本是基于python3.x下通過，在windows上才能調(diào)用迅雷～linux平臺(tái)只能獲取相關(guān)信息！
python安裝和相關(guān)的模塊安裝這里不講述，如有不明白請留言我～
jupyter上運(yùn)行如下：
python如何爬取電影并下載

二、代碼

廢話不多說上代碼吧～

# coding:utf-8
# version 20181027 by san
import re,time,os
from urllib import request
from lxml import etree  # python xpath 單獨(dú)使用導(dǎo)入是這樣的
import platform
import ssl
ssl._create_default_https_context = ssl._create_unverified_context   # 取消全局證書

#爬蟲電影之類
class getMovies:
    def __init__(self,url,Thuder):
        '''        實(shí)例初始化       '''
        self.url = url
        self.Thuder = Thuder

    def getResponse(self,url):
        url_request = request.Request(self.url)
        url_response = request.urlopen(url_request)
        return url_response   #返回這個(gè)對(duì)象

    def newMovie(self):
        ''' 獲取最新電影 下載地址與url '''
        http_response = self.getResponse(webUrl) #拿到http請求后的上下文對(duì)象(HTTPResponse object)
        data = http_response.read().decode('gbk')
        #print(data)  #獲取網(wǎng)頁內(nèi)容
        html = etree.HTML(data)
        newMovies = dict()
        lists = html.xpath('/html/body/div[1]/div/div[3]/div[2]/div[2]/div[1]/div/div[2]/div[2]/ul/table//a')
        for k in lists:
            if "app.html" in k.items()[0][1] or "最新電影下載" in k.text:
                continue
            else:
                movieUrl = webUrl + k.items()[0][1]
                movieName = k.text.split('《')[1].split("》")[0]
                newMovies[k.text.split('《')[1].split("》")[0]] = movieUrl = webUrl + k.items()[0][1]
        return newMovies

  def Movieurl(self,url):
        ''' 獲取評(píng)分和更新時(shí)間 '''
        url_request = request.Request(url)
        movie_http_response = request.urlopen(url_request)
        data = movie_http_response.read().decode('gbk')
        if len(re.findall(r'豆瓣評(píng)分.+?.+users',data)):  # 獲取評(píng)分;沒有評(píng)分的返回null
            pingf = re.findall(r'豆瓣評(píng)分.+?.+users',data)[0].split('/')[0].replace("\u3000",":")

        else:
            pingf = "豆瓣評(píng)分:null"
        desc = re.findall(r'簡\s+介.*',data)[0].replace("\u3000","").replace('<br />',"").split("src")[0].replace('&ldquo',"").replace('&rdquo',"").replace('<img border="0"',"")

        times = re.findall(r'發(fā)布時(shí)間.*',data)[0].split('\r')[0].strip()   # 獲取影片發(fā)布時(shí)間
        html = etree.HTML(data)
        murl = html.xpath('//*[@id="Zoom"]//a')
        for k in murl:
            for l in k.items():
                if "ftp://" in l[1]:
                    print
                    return l[1],times,pingf,desc

    def check_end(self,fiename,path):
        ''' 檢測文件是否下載完成 '''
        return os.path.exists(os.path.join(save_path,fiename))

    def check_start(self,filename):
        ''' 檢測文件是否開始下載 '''
        cache_file = filename+".xltd"
        return os.path.exists(os.path.join(save_path,cache_file))

    def DownMovies(self,name,url):
        ''' windows下載 '''
        PlatForm = platform.system()
        print("即將下載的電影是：%s" %name)
        if PlatForm == "Windows":
            try:
                print(r'"{0}" "{1}"'.format(self.Thuder,url))
                os.system(r'"{0}" {1}'.format(self.Thuder,url))
            except Exception as e:
                print(e)
        else:
            print("當(dāng)前系統(tǒng)平臺(tái)不支持")

    def Main(self):
        ''' 最終新電影存儲(chǔ)在字典中 '''
        NewMoveis = dict()  
        Movies = self.newMovie()  # 獲取電影的字典信息
        for k,v in Movies.items():
            NewMoveis[k] = self.Movieurl(v),v
        return NewMoveis

    def NewMoives(self):
        ''' 查看已經(jīng)獲取到的電影信息 '''
        Today = time.strftime("%Y-%m-%d")
        print("今天是：%s" %Today)
        Movies = self.Main()
        print("最近的 %s 部新電影：" % len(Movies.keys()))
        for k,v in Movies.items():
#           print(v[0][1].split(":")[0])
            if Today in v[0][1].split(":")[0]:
                print("++++++++++++++++今天剛更新++++++++++++++：","\n",k,"-->",v,"\n")
            else:
                print("========================================")
                print(k,"-->",v,"\n")

if __name__ == '__main__':
    # 以下依據(jù)您個(gè)人電影迅雷的相關(guān)信息填寫即可
    save_path="O:\迅雷下載"     # 電影下載保存位置 （需要填寫）
    Thuder = "O:\Program\Thunder.exe"   #Thuder: 迅雷Thuder.exe路徑 （需要填寫）
    webUrl = 'http://www.dytt8.net'     # 電影網(wǎng)站
    test = getMovies(webUrl,Thuder)   # 實(shí)例化
    test.NewMoives()
    Movies = test.Main()

    for k,v in Movies.items():
        movies_name = v[0][0].split('/')[3]
        socre = v[0][2].split(":")[1]
        check_down_status = test.check_end(movies_name,save_path)
#       print(check_down_status)
        if  check_down_status:
            print("電影: %s 已經(jīng)下載" %movies_name)
            continue
        elif  socre == 'null':
            continue
        elif float(socre) > 7.0:
            print(movies_name,socre)
            test.DownMovies(k,v[0][0])
            time.sleep(10)

注意：以上代碼是針對(duì)windows平臺(tái)下，迅雷版本為非極速版本，本次使用的是9.14 如圖：
python如何爬取電影并下載
另外需要勾選以下配置項(xiàng)，否則程序調(diào)用迅雷下載時(shí)會(huì)有提示框：

程序運(yùn)行效果如圖：
python如何爬取電影并下載

再看下O盤下載的目錄：
python如何爬取電影并下載

至此自動(dòng)獲取最新電影并下載指定評(píng)分電影完成～再也不用擔(dān)心選擇困難了，下好看就行了～

感謝各位的閱讀！關(guān)于“python如何爬取電影并下載”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Python全棧開發(fā)之基礎(chǔ)語法有哪些
下一篇新聞：
Python自動(dòng)化開發(fā)學(xué)習(xí)之如何實(shí)現(xiàn)爬蟲

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<small id="ngydt"></small>