溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

發(fā)布時間:2022-08-01 13:41:49 來源:億速云 閱讀:142 作者:iii 欄目:開發(fā)技術(shù)

本文小編為大家詳細(xì)介紹“Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。

    1.前言

    數(shù)據(jù)展示,即數(shù)據(jù)可視化,是數(shù)據(jù)分析的第五個步驟,大部分人對圖形敏感度高于數(shù)字,好的數(shù)據(jù)展示方式能讓人快速發(fā)現(xiàn)問題或規(guī)律,找到數(shù)據(jù)背后隱藏的價值。

    2.Matplotlib概念

    Matplotlib 是 Python 中常用的 2D 繪圖庫,它能輕松地將數(shù)據(jù)進(jìn)行可視化,作出精美的圖表。Matplotlib 模塊很龐大,其中最常用的一個子模塊是 pyplot,通常以一下方式將其導(dǎo)入:

     import matplotlib.pyplot as plt

     因?yàn)樵诔绦蛑薪?jīng)常使用,所以給 matplotlib.pyplot 起了個別名plt,以減少大量重復(fù)代碼

    3.Matplotlib.pyplot基本使用

    pyplot 中最基礎(chǔ)的作圖方式是以點(diǎn)作圖,即給出每個點(diǎn)的坐標(biāo),pyplot 會將這些點(diǎn)在坐標(biāo)系中畫出,并用線將這些點(diǎn)連起來。以正弦函數(shù)為例,用 pyplot 畫出圖像:

    代碼段1:

     import numpy as np
     import matplotlib.pyplot as plt
     
     x = np.arange(0,2*np.pi,0.1) #生成一個0到2pi、步長為0.1的數(shù)組x
     y = np.sin(x) #將x的值傳入正弦函數(shù),得到對應(yīng)的值存入數(shù)組y
     plt.plot(x,y) #傳入plt.plot(),將x,y轉(zhuǎn)換成對應(yīng)坐標(biāo)。
     plt.show() #顯示圖像

    上面程序畫出了以下圖像:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    注:選擇x的步長為0.1是為了讓每個點(diǎn)間隔較小,讓圖像更加接近真實(shí)情況,否則如果步長過大,則會變成折線,若步長為1則會變成以下情況:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    除了 np.sin()方法外,numpy 中也有 np.cos()、np.tan()等計算三角函數(shù)的方法。上面這些方法,最重要的是 plt.plot()方法,plt.plot()方法可以接收任意對數(shù)的 x 和 y ,它會將這些圖像在一張圖上都畫出來,例如在原來的正弦圖像上增加余弦圖像,可以這樣寫:

     import numpy as np
     import matplotlib.pyplot as plt
     
     x = np.arange(0,2*np.pi,0.1) #生成一個0到2pi,步長為0.1的數(shù)組x
     y1 = np.sin(x) #將x的值傳入正弦函數(shù),得到對應(yīng)的值存入數(shù)組y1
     y2 = np.cos(x) #將x的值傳入余弦函數(shù),得到對應(yīng)的值存入數(shù)組y1
     plt.plot(x,y1,x,y2) #傳入plt.plot(),將(x,y1)、(x,y2)轉(zhuǎn)換成對應(yīng)坐標(biāo)。
     plt.show() #顯示圖像

     以上程序公用了同一個x,當(dāng)然也可以重新定義一個新的 x,最終得到的圖像如下:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    代碼段2使用一次 plt.plot()方法直接將兩個數(shù)字轉(zhuǎn)換 成對應(yīng)坐標(biāo),當(dāng)然也可以調(diào)用兩次,以下兩行代碼和上面第7行代碼是等價的。

     plt.plot(x,y1)
     plt.plot(x,y2)

    對每一對 x 和 y,有一個可選格式化參數(shù),進(jìn)行指定線條的顏色、點(diǎn)標(biāo)記和線條的類型。

    代碼段3:

     import numpy as np
     import matplotlib.pyplot as plt
     
     x = np.arange(0,2*np.pi,0.1) #生成一個0到2pi,步長為0.1的數(shù)組x
     y1 = np.sin(x) #將x的值傳入正弦函數(shù),得到對應(yīng)的值存入數(shù)組y1
     y2 = np.cos(x) #將x的值傳入余弦函數(shù),得到對應(yīng)的值存入數(shù)組y1
     plt.plot(x,y1,'ro--',x,y2,'b*-.') #將(x,y1)、(x,y2)轉(zhuǎn)換成對應(yīng)坐標(biāo),并選用格式化參數(shù)
     plt.show() #顯示圖像

    將代碼段2傳入了格式化參數(shù)后,最終圖像如下所示:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    以其中的參數(shù)'ro--'為例,它分為三部分:r 代表紅色(red),o 代表在坐標(biāo)點(diǎn)采用圓點(diǎn)標(biāo)記,-- 代表虛線。'ro--'整體來說就是線條為虛線、坐標(biāo)點(diǎn)標(biāo)記為圓點(diǎn)。格式化參數(shù)這三部分都是可選的,即傳入一部分也是可以的,并且沒有順序要求,

    格式化參數(shù)常用的選型及含義如下表所示:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    3.數(shù)據(jù)展示

    3.1如何選擇展示方式

    我們通過數(shù)據(jù)分析來進(jìn)行決策,那么使用合適的圖表來準(zhǔn)確地展示數(shù)據(jù)是至關(guān)重要的。實(shí)際使用中,我們會用到各種各樣地幾十種圖表,按照數(shù)據(jù)展示的目標(biāo)可以把它們分為五種,分別是:趨勢、比較、構(gòu)成、分布和聯(lián)系。

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    • 趨勢:最常見的一種時間序列關(guān)系,關(guān)心數(shù)據(jù)如何隨時間變化,趨勢里的圖標(biāo)能直觀反映出每年、每月、每天的變化趨勢,增長、減少、上下波動還是基本不變,最常見的是折線圖,它能很好地表現(xiàn)指標(biāo)隨時間呈現(xiàn)的趨勢。

    • 構(gòu)成:主要關(guān)注每個部分整體的占比,如果逆向分析的目標(biāo)如“份額”、“百分比”等。展示構(gòu)成關(guān)系的圖表類型,最常見的是餅圖。

    • 比較:可以展示某個維度上的排列順序,分析某維度之間的對比是差不多,還是“大于”、“小于”,比如分析男生和女生的身高差別。

    • 分布:當(dāng)你關(guān)心數(shù)據(jù)集中,頻率、分布時,比如根據(jù)地理位置數(shù)據(jù),通過地圖來展示不同分布特征。比較常用的圖表有地圖、直方圖、散點(diǎn)圖。

    • 聯(lián)系:主要查看兩個變量之間是否表達(dá)出我們所要證明的相關(guān)關(guān)系,比如預(yù)期銷售額可能隨著優(yōu)惠折扣的增長而增長,常用于表打“與......有關(guān)”、“隨......而增長”、“隨......而不同”等維度的關(guān)系。

    在進(jìn)行數(shù)據(jù)可視化時,要先明確分析的目標(biāo),再來選擇五種合適的分類,最后選擇某個分類里合適的圖表類型。

    3.2繪制折線圖

    其實(shí)在前面已經(jīng)用過折線圖了,就是使用 plot.plot() 方法。之前我們傳入的時x和y坐標(biāo)點(diǎn),而折線圖的 x 和 y 分別是時間點(diǎn)和對應(yīng)的數(shù)據(jù),下面以兩個商品的銷量走勢為例:

    import numpy as np
    import matplotlib.pyplot as plt
     
    x = ['周一','周二','周三','周四','周五','周六','周日']
    y1 = [61,42,52,72,86,91,73]
    y2 = [23,26,67,38,46,55,33]
    #傳入label參數(shù)
    plt.rcParams['font.family'] = ['SimHei'] #設(shè)置字體防止亂碼
    plt.plot(x, y1, label='商品A') #增加折線圖例“商品A”
    plt.plot(x, y2, label='商品B') #增加折線圖例“商品B”
    #設(shè)置x軸標(biāo)簽
    plt.xlabel('時間')
    plt.ylabel('銷量')
    #設(shè)置圖表標(biāo)題
    plt.title('商品銷量對比圖')
    #顯示圖例、圖像
    plt.legend(loc='best') #顯示圖例,并設(shè)置在“最佳位置”
    plt.show()

    得到的圖像如下圖所示:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    因?yàn)樯蠄D中有中文,所以通過 plt.rcParams['font.family'] = ['SimHei'] 來設(shè)置中文字體來防止亂碼,如果想設(shè)置其他字體只需將 SimHei(黑體)替換成相應(yīng)的名稱即可。通過一下代碼獲得,自己編譯器所在環(huán)境安裝的字體:

    import matplotlib.font_manager as fm
    for font in fm.fontManager.ttflist:
        print(font.name)

     圖例位置是一個可選參數(shù),默認(rèn) matplotlib 會自動選擇合適位置,也可以指定其他位置。

    具體的如下表所示:

    plt.legend() 方法的 loc 參數(shù)選擇 參數(shù)含義參數(shù)含義best最佳位置center居中upper right右上角center right靠右居中upper left左上角center left靠左居中l(wèi)ower left左下角lower center靠下居中l(wèi)ower right右下角upper center靠上居中

    3.3繪制柱狀圖

    柱狀圖描述的是分類數(shù)據(jù),展示的是每一類的數(shù)量。柱狀圖分為很多種,有普通柱狀圖、堆疊柱狀圖、分組柱狀圖等。

    3.3.1普通柱狀圖

     普通柱狀圖調(diào)用 plt.bar() 方式實(shí)現(xiàn)。我們至少需要傳入兩個參數(shù),第一個參數(shù)是 x 軸上刻度的標(biāo)簽序列(列表、元組、數(shù)組等),第二個參數(shù)用于指定每個柱子的高度,也就是具體的數(shù)據(jù)。下面以一個班級體育課選課的情況為例:

    import matplotlib.font_manager as fm
    for font in fm.fontManager.ttflist:
        print(font.name)

     得到如下圖像:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

     plt.bar() 前兩個參數(shù)是必選的,當(dāng)然還有一些可選參數(shù),常用的有 width 和 color ,分別是用于設(shè)置柱子的寬度(默認(rèn)0.8)和顏色。比如我們將柱子寬度改成0.6,將柱子的顏色設(shè)成好看的天藍(lán)色只需將 plt.bar() 改為 plt.bar(names, nums, width=0.6, color='skyblue') 即可。之前在折線圖部分用到的 plt.xlabel() 、plt.ylabel() 、plt.title() 和 plt.legend() 方法都是通用方法,并不局限于一種圖表,所有的圖表都適用。

    3.3.2堆疊柱狀圖

     柱狀圖能直觀地展現(xiàn)出不同數(shù)據(jù)上的差異,但有時候我們需要進(jìn)一步分析數(shù)據(jù)的分布,比如每門選修課的男女比例,這時就需要用到堆疊柱狀圖。

    下面就是進(jìn)一步分析每一門選修課中男女比例為例編寫程序:

    import numpy as np
    import matplotlib.pyplot as plt
     
    plt.rcParams['font.family'] = ['SimHei'] #設(shè)置字體防止亂碼
    name = ['乒乓球','羽毛球','網(wǎng)球']
    nums_boy = [16,5,11]
    nums_girl = [10,15,8]
     
    plt.bar(name, nums_boy, width=0.6, color='skyblue', label='男')
    plt.bar(name, nums_girl, bottom=nums_boy, width=0.6, color='pink', label='女')
    plt.legend()
    plt.show()

    最終得到圖像:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    上面的代碼和普通柱狀圖相比,多調(diào)用了一次,plt.bar() 方法,并傳入了 bottom 參數(shù),每調(diào)用一次 plt.bar() 方法都會畫出對應(yīng)的柱狀圖,而 bottom 參數(shù)作用就是控制柱狀圖低端的位置。我們將前一個柱狀圖的高度傳進(jìn)去,這樣就形成了堆疊柱狀圖。而如果沒有 bottom 參數(shù),后面的圖形會蓋在原來的圖形之上,

    就像下面這樣:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    3.3.3分組柱狀圖

    分組柱狀圖經(jīng)常用于不同組間數(shù)據(jù)的比較,這些組都包含了相同分類的數(shù)據(jù)。

    先來看一下效果圖:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

     繪制上圖的代碼如下:

    import numpy as np
    import matplotlib.pyplot as plt
     
    x = np.arange(3)
    width = 0.3
     
    names = ['籃球', '羽毛球', '乒乓球']
    nums_boy = [16, 5, 11]
    nums_girl = [10, 15, 8]
    plt.rcParams['font.family'] = ['SimHei'] #設(shè)置字體防止亂碼
    plt.bar(x - width / 2, nums_boy, width=width, color='skyblue', label='男')
    plt.bar(x + width / 2, nums_girl, width=width, color='pink', label='女')
    plt.xticks(x, names)
    plt.legend()
    plt.show()

    這次的方法和之前有些不同,首先使用 np.arange(3) 方法創(chuàng)建了一個數(shù)組 x ,值為[0,1,2]。并定義了一個變量 width 用于指定柱子的寬度。在調(diào)用 plt.bar() 時,第一個參數(shù)不再是刻度線上的標(biāo)簽,而是對應(yīng)的刻度。以[0,1,2]為基準(zhǔn),分別加上或減去柱子的寬度得到[-0.15,0.85,1,85]和[0.15,1.15,2.15],這些刻度將分別作為兩組柱子的中點(diǎn),并且柱子的寬度為0.3。

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    因?yàn)閭魅氲氖强潭?,而不是刻度的?biāo)簽。所以調(diào)用 plt.xticks() 方法來將 x 軸上刻度改為對應(yīng)的標(biāo)簽,該方法第一個參數(shù)時要改的刻度序列,第二個參數(shù)時與之對于的標(biāo)簽序列。同理,使用plt.yticks() 方法來更改y軸上刻度的標(biāo)簽。

    3.3.4餅圖

    餅圖廣泛地應(yīng)用在各個領(lǐng)域,用于表示不同分類的占比情況,通過弧度大小來對比各種分類。餅圖通過將一個圓餅按照分類的占比劃分成多個區(qū)塊,整個圓餅代表數(shù)據(jù)的總量,每個區(qū)塊(圓?。┍硎驹摲诸愓伎傮w的比例大小,所有區(qū)塊(圓?。┑募雍偷扔?00%。

     餅圖的繪制很簡單,只需要傳入數(shù)據(jù)和對于的標(biāo)簽給 plt.pie() 方法即可。以2018年國內(nèi)生產(chǎn)總值(GDP)三大產(chǎn)業(yè)的占比為例,可以畫出這樣的餅圖:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    繪制上圖的代碼如下:

    import matplotlib.pyplot as plt
     
    plt.rcParams['font.family'] = ['SimHei'] #設(shè)置字體防止亂碼
    data = [64745.2, 364835.2, 489700.8]
    labels = ['第一產(chǎn)業(yè)', '第二產(chǎn)業(yè)', '第三產(chǎn)業(yè)']
    explode = (0.1, 0, 0)
    plt.pie(data, explode=explode, labels=labels,autopct='%0.1f%%')
    plt.show()

     plt.pie() 方法的第一個參數(shù)是繪圖需要的數(shù)據(jù);參數(shù) explode 是可選參數(shù),用于突出顯示某一區(qū)塊,默認(rèn)數(shù)值都是0,數(shù)值越大,區(qū)塊抽離越明顯;參數(shù) lables 是數(shù)據(jù)對應(yīng)的標(biāo)簽;參數(shù) autopct 則給餅圖自動添加百分比顯示。

    參數(shù) autopct 的格式用到了字符串格式化輸出的知識,代碼中 '%0.1f%%' 可以分成兩部分。一部分是 %0.1f 表示保留一位小數(shù),同理 %0.2f 表示保留兩位小數(shù);另一部分是 %% ,它表示輸出一個 %,因?yàn)? 在字符串格式化輸出中有特殊的含義,所以想要輸出 % 就得寫成 %% 。所以,'%0.1f%%' 的含義是保留一位小數(shù)的百分?jǐn)?shù),例如:66.6%。

    4.繪制子圖

    Matplotlib 提供了子圖的概念,通過使用子圖,可以在一張圖里繪制多個圖表。在 matplotlib 中,調(diào)用 plt.subplot() 方法來添加子圖。plt.subplot() 方法的前兩個參數(shù)分別是子圖的行數(shù)和列數(shù),第三個參數(shù)是子圖的序號(從1開始)。

    ax1 = plt.subplot(2, 2, 1)
    ax2 = plt.subplot(2, 2, 2)
    ax3 = plt.subplot(2, 2, 3)
    ax4 = plt.subplot(2, 2, 4)

     plt.subplot(2,2,1) 的作用是生成一個兩行兩列的子圖,并選擇其中序號為1的子圖,所以上面四行代碼將一張圖分成了4個子圖,并用1、2、3、4來選擇對應(yīng)的子圖。

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    我們也可以繪制不規(guī)則的子圖,比如上面兩張子圖,下面一張子圖。

    方法如下:

    ax1 = plt.subplot(2, 2, 1)
    ax2 = plt.subplot(2, 2, 2)
    ax3 = plt.subplot(2, 1, 2)

    之所以第三行代碼是 plt.subplot(2, 1, 2) ,因?yàn)樽訄D序號是獨(dú)立的,與之前創(chuàng)建的子圖沒有關(guān)系。plt.subplot(2, 2, 1) 選擇并展示了2*2的子圖中的第一個。plt.subplot(2, 2, 2) 選擇并展示了2*2的子圖中的第二個,它們兩個合起來占了2*2子圖的第一行。而 plt.subplot(2, 1, 2) 則是生成了兩行一列的子圖,并選擇了第二行。即占滿第二行的子圖,正好填補(bǔ)了之前2*2子圖第二行剩下的空間,因此生成的圖表是這樣的:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    圖表的框架畫好了,就可以往里面填充圖像了,之前調(diào)用的是 plt 上的方法繪圖,只要將其改成 plt.subplot() 方法的返回值上調(diào)用相應(yīng)的方法繪圖即可。

    舉個栗子,下面是在一張圖上繪制了 sin、cos 和 tan 三個函數(shù)的圖像的代碼:

    import numpy as np
    import matplotlib.pyplot as plt
     
    plt.rcParams['font.family'] = ['SimHei'] #設(shè)置字體防止亂碼
     
    x = np.arange(0, 2 * np.pi, 0.1)
     
    plt.suptitle('三角函數(shù)可視化')
    ax1 = plt.subplot(2,2,1)
    ax1.set_title('sin函數(shù)')
    y1 = np.sin(x)
    ax1.plot(x,y1)
     
    ax2 = plt.subplot(2,2,2)
    ax2.set_title('cos函數(shù)')
    y2 = np.cos(x)
    ax2.plot(x,y2)
     
    ax3 = plt.subplot(2,1,2)
    ax3.set_title('tan函數(shù)')
    y3 = np.tan(x)
    ax3.plot(x,y3)
     
    plt.show()

    得到的圖像是:

    Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用

    上面程序中,使用 set_title() 方法為每個子圖設(shè)置單獨(dú)的標(biāo)題。需要注意的是,如果想要給帶有子圖的圖表設(shè)置總的標(biāo)題的話,不是使用的 plt.titie() 方法,而是通過 plt.suptitile() 方法來設(shè)置帶有子圖的圖表標(biāo)題。 

    讀到這里,這篇“Python數(shù)據(jù)分析之Matplotlib數(shù)據(jù)可視化怎么使用”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點(diǎn)還需要大家自己動手實(shí)踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

    向AI問一下細(xì)節(jié)

    免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

    AI