溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

怎么用python分析電影票房

發(fā)布時(shí)間:2022-05-09 13:38:39 來源:億速云 閱讀:864 作者:zzz 欄目:大數(shù)據(jù)

這篇文章主要介紹“怎么用python分析電影票房”的相關(guān)知識(shí),小編通過實(shí)際案例向大家展示操作過程,操作方法簡(jiǎn)單快捷,實(shí)用性強(qiáng),希望這篇“怎么用python分析電影票房”文章能幫助大家解決問題。

一、提出問題

本案例來源于kaggle上的TMDB 5000 Movie Dataset數(shù)據(jù)集,為了探討電影數(shù)據(jù)可視化,為電影的制作提供數(shù)據(jù)支持,主要研究以下幾個(gè)問題:

  • 電影類型如何隨著時(shí)間的推移發(fā)生變化的?

  • 電影類型與利潤(rùn)的關(guān)系?

  • Universal和Paramount兩家影視公司的對(duì)比情況如何?

  • 改編電影和原創(chuàng)電影的對(duì)比情況如何?

  • 電影時(shí)長(zhǎng)與電影票房及評(píng)分的關(guān)系?

  • 分析電影關(guān)鍵字

二、理解數(shù)據(jù)

1、采集數(shù)據(jù)

從kaggle上的TMDB 5000 Movie Dataset下載數(shù)據(jù)集:

https://www.kaggle.com/tmdb/tmdb-movie-metadata

2、導(dǎo)入數(shù)據(jù)

怎么用python分析電影票房

3、查看數(shù)據(jù)集信息

怎么用python分析電影票房

下面是moviedf數(shù)據(jù)集中部分字段的含義介紹:

  • id: 標(biāo)識(shí)號(hào)

  • imdb id:IMDB標(biāo)識(shí)號(hào)

  • popularity: 在Movie Database上的相對(duì)頁(yè)面查看次數(shù)

  • budget: 預(yù)算(美元)

  • revenue: 收入(美元)

  • original_title: 電影名稱

  • cast: 演員列表,按|分隔,最多5名演員

  • homepage: 電影首頁(yè)的URL

  • director: 導(dǎo)演列表,按|分隔,最多5名導(dǎo)演

  • tagline: 電影的標(biāo)語(yǔ)

  • keywords: 與電影相關(guān)的關(guān)鍵字,按|分隔,最多5個(gè)關(guān)鍵字

  • overview: 劇情摘要

  • runtime: 電影時(shí)長(zhǎng)

  • genres: 風(fēng)格列表,按|分隔,最多5種風(fēng)格

  • production_companies: 制作公司列表,按|分隔,最多5家公司

  • release_date: 首次上映日期

  • vote_count: 評(píng)分次數(shù)

  • vote_average: 平均評(píng)分·release year: 發(fā)行年份

三、數(shù)據(jù)清洗

1、先將credits數(shù)據(jù)集和moviedf數(shù)據(jù)集中的數(shù)據(jù)合并在一起,再查看合并后的數(shù)據(jù)集信息:

怎么用python分析電影票房

2、選取子集

由于數(shù)據(jù)集中包含的信息過多,其中部分?jǐn)?shù)據(jù)并不是我們研究的重點(diǎn),所以從中選取我們需要的數(shù)據(jù):

怎么用python分析電影票房

由于后面的數(shù)據(jù)分析涉及到電影類型的利潤(rùn)計(jì)算,先求出每部電影的利潤(rùn),并在數(shù)據(jù)集moviesdf中增加profit數(shù)據(jù)列:

怎么用python分析電影票房

3、缺失值處理

通過上面的數(shù)據(jù)集信息可以知道:整個(gè)數(shù)據(jù)集缺失的數(shù)據(jù)比較少 其中release_date(首次上映日期)缺失1個(gè)數(shù)據(jù),runtime(電影時(shí)長(zhǎng))缺失2個(gè)數(shù)據(jù),可以通過網(wǎng)上查詢補(bǔ)齊這個(gè)數(shù)據(jù)。

填補(bǔ)release_date(首次上映日期)數(shù)據(jù):

怎么用python分析電影票房

找出runtime(電影時(shí)長(zhǎng))缺失的數(shù)據(jù):

怎么用python分析電影票房

填充runtime缺失值:

怎么用python分析電影票房

4、數(shù)據(jù)格式轉(zhuǎn)換

genres列數(shù)據(jù)處理:

怎么用python分析電影票房

release_date列數(shù)據(jù)處理:

怎么用python分析電影票房

四、數(shù)據(jù)分析及可視化

問題一:電影類型如何隨著時(shí)間的推移發(fā)生變化的?

1、建立包含年份與電影類型數(shù)量的關(guān)系數(shù)據(jù)框:

怎么用python分析電影票房

2、數(shù)據(jù)可視化

繪制各種電影類型的數(shù)量柱狀圖:

怎么用python分析電影票房

怎么用python分析電影票房

繪制各種電影類型占比的餅狀圖:

怎么用python分析電影票房

怎么用python分析電影票房

分析結(jié)論:

  • 從上面的結(jié)果可以看出,在所有的電影類型中,Drama(戲劇)類型電影最多,占所有電影類型的18.9%,其次為Comedy(喜劇),占所有電影類型的14.2%。

  • 在所有電影類型中,電影數(shù)量排名前5的電影類型分別為: Drama(戲劇)、Comedy(喜劇)、Thriller(驚悚)、Action(動(dòng)作)、Romance(冒險(xiǎn))。

3、電影類型隨時(shí)間變化的趨勢(shì)分析:

怎么用python分析電影票房

分析結(jié)論:

從圖中觀察到,隨著時(shí)間的推移,所有電影類型都呈現(xiàn)出增長(zhǎng)趨勢(shì),尤其是1992年以后各個(gè)類型的電影均增長(zhǎng)迅速,其中Drama(戲劇)和Comedy(喜劇)增長(zhǎng)最快,目前仍是最熱門的電影類型。

問題二:電影類型與利潤(rùn)的關(guān)系?

先求出各種電影類型的平均利潤(rùn):

怎么用python分析電影票房

電影類型平均利潤(rùn)數(shù)據(jù)可視化:

 怎么用python分析電影票房

分析結(jié)論:

從圖中觀察到,拍攝Animation、Adventure、Fantasy這三類電影盈利最好,而拍攝Foreign、TV、Movie這三類電影會(huì)存在虧本的風(fēng)險(xiǎn)。

問題三:Universal Pictures和Paramount Pictures兩家影視公司發(fā)行電影的對(duì)比情況如何?

Universal Pictures(環(huán)球影業(yè))和Paramount Pictures(派拉蒙影業(yè))是美國(guó)兩家電影巨頭公司。

1、查看 Universal Pictures和Paramount Pictures兩家影視公司電影發(fā)行的數(shù)量

先對(duì)production_companies列數(shù)據(jù)進(jìn)行處理:

怎么用python分析電影票房

查詢production_companies數(shù)據(jù)列并統(tǒng)計(jì)Universal Pictures和Paramount Pictures的數(shù)據(jù):

怎么用python分析電影票房

使用餅狀圖比較兩家公司發(fā)行的電影占比:

怎么用python分析電影票房

2、分析Universal Pictures和Paramount Pictures兩家影視公司電影發(fā)行的走勢(shì)

抽取相關(guān)數(shù)據(jù)列進(jìn)行處理:

怎么用python分析電影票房

兩家影視公司電影發(fā)行的折線圖:

怎么用python分析電影票房

分析結(jié)論:

從圖中觀察到,隨著時(shí)間的推移,Universal Pictures和Paramount Pictures公司的電影發(fā)行量呈現(xiàn)出增長(zhǎng)趨勢(shì),尤其是在1995年后增長(zhǎng)迅速,其中Universal Pictures公司比Paramount Pictures公司發(fā)行的電影數(shù)量更多。

問題四:改編電影和原創(chuàng)電影的對(duì)比情況如何?

對(duì)keywords列數(shù)據(jù)處理:

怎么用python分析電影票房

描繪柱狀圖,對(duì)改編電影與原創(chuàng)電影在預(yù)算、收入及利潤(rùn)三方面進(jìn)行比較:

怎么用python分析電影票房

分析結(jié)論:

從圖上可以看出,改編電影的預(yù)算略高于原創(chuàng)電影,但改編電影的票房收入和利潤(rùn)遠(yuǎn)遠(yuǎn)高于原創(chuàng)電影, 這可能是改編電影擁有一定的影迷基礎(chǔ)。

問題五:電影時(shí)長(zhǎng)與電影票房及評(píng)分的關(guān)系

電影時(shí)長(zhǎng)與電影票房的關(guān)系:

怎么用python分析電影票房

電影時(shí)長(zhǎng)與電影平均評(píng)分的關(guān)系:

怎么用python分析電影票房

分析結(jié)論:

從圖上可以看出,電影要想獲得較高的票房及良好的口碑,電影的時(shí)長(zhǎng)應(yīng)保持在90~150分鐘內(nèi)。

問題六:分析電影關(guān)鍵字

先提取電影關(guān)鍵字:

怎么用python分析電影票房

通過詞云包WordCloud生成詞云圖:

怎么用python分析電影票房

關(guān)于“怎么用python分析電影票房”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI