<strong id="x5v6m"></strong>

<i id="x5v6m"></i>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Pandas如何實現(xiàn)DataFrame運算、統(tǒng)計與排序操作

發(fā)布時間：2022-03-31 14:45:50 來源：億速云閱讀：249 作者：小新欄目：開發(fā)技術(shù)

這篇文章主要介紹Pandas如何實現(xiàn)DataFrame運算、統(tǒng)計與排序操作，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

由于DataFrame的數(shù)據(jù)結(jié)構(gòu)中包含了多行、多列，所以DataFrame的計算與統(tǒng)計可以是用行數(shù)據(jù)或者用列數(shù)據(jù)。為了更方便我們的使用，Pandas為我們提供了常用的計算與統(tǒng)計方法：

操作	方法	操作	方法
求和	sum	最大值	max
求均值	mean	最小值	min
求方差	var	標準差	std
中位數(shù)	median	眾數(shù)	mode
分位數(shù)	quantile

一.運算

接上文的例子，我們已經(jīng)有了N個學生的數(shù)學、語文、英語的成績表，現(xiàn)在，我們要算出每個學生的總成績，那么我們就可以用以下的方法：

'''
行的求和以下演示兩種方法：
方法1：先把待求和的列數(shù)據(jù)刪選出來（剔除掉name列）,然后使用sum函數(shù)求和
方法2：把待求和的列一個一個選出來然后使用運算符求和
兩種方法最后的結(jié)果為像原有的DataFrame中新增一列，數(shù)據(jù)為每行數(shù)據(jù)的求和
'''
df['sum'] = df[['chinese', 'math', 'english']].sum(1)	#方法1

df['sum'] = df['chinese'] + df['math'] + df['english']	#方法2

Output：
        name  chinese  english  math  sum
0   XiaoMing       99      100    80  279
1      LiHua      102       79    92  273
2  HanMeiNei      111      130   104  345

在sum方法中我們傳入了參數(shù)1，代表的是我們使用的軸（axis）為行（對行數(shù)據(jù)進行求和），如果想要計算出每列的求和我們只用傳入0即可（sum函數(shù)默認參數(shù)為0，所以也可不傳）：

df[['chinese', 'math', 'english']].sum(0)

Output：
chinese    312
math       276
english    309
dtype: int64

現(xiàn)在有了總成績，那么數(shù)學老師或者語文老師就會關(guān)心本班學生的數(shù)據(jù)平均分是多少，同樣的，我們可以非?？焖俚挠嬎愠鰜恚?/p>

df['math'].mean()		#方法一：直接使用Pandas提供的mean求均值方法

df['math'].sum() / df.shape[0]	#方法二：使用求和方法算出總和后除以總?cè)藬?shù)（行數(shù)）

Output：
92.0

本????中使用了DataFrame的shape方法，這個方法是用來顯示DataFrame的行數(shù)和列數(shù)的，行數(shù)為0，列數(shù)1。需要注意的是輸出的列數(shù)值是不含索引列的。

上述????只計算了數(shù)學的平均分，感興趣的小伙伴可以自行基礎(chǔ)出英語和語文的平均分哦~

二.統(tǒng)計

這個時候數(shù)學老師又有新的需求了，他想查看本班學生數(shù)學成績的最高分、最低分、中位數(shù)等統(tǒng)計數(shù)據(jù)，那么根本不慌，Pandas統(tǒng)統(tǒng)可以幫我們搞定：

df['math'].min()  # math列的最小值
Output：80

df['math'].max()  # math列的最大值
Output：104

df['math'].quantile([0.3, 0.4, 0.5])  # math列的30%、40%、50%分位數(shù)
Output：
0.3    87.2
0.4    89.6
0.5    92.0
Name: math, dtype: float64

df['math'].std() # math列的標準差
Output：12

df['math'].var() # math列的方差
Output：144

df['math'].mean() # math列的平均數(shù)
Output：92

df['math'].median() # math列的中位數(shù)
Output：92

df['math'].mode() # math列的眾數(shù)，返回一個Series對象（有可能出現(xiàn)并列的情況，例子中眾數(shù)為1，所以都返回）
Output:
0     80
1     92
2    104
dtype: int64

我們也可以使用DataFrame的describe方法對DataFrame查看基本的統(tǒng)計情況：

df.describe()

Outprint:
          chinese     english   math         sum
count    3.000000    3.000000    3.0    3.000000
mean   104.000000  103.000000   92.0  299.000000
std      6.244998   25.632011   12.0   39.949969
min     99.000000   79.000000   80.0  273.000000
25%    100.500000   89.500000   86.0  276.000000
50%    102.000000  100.000000   92.0  279.000000
75%    106.500000  115.000000   98.0  312.000000
max    111.000000  130.000000  104.0  345.000000

三.排序

一般來講我們的成績表都是按照總分從高到低進行排序：

df = df.sort_values(by='sum', ascending=False)


Output:
        name  chinese  english  math  sum
2  HanMeiNei      111      130   104  345
0   XiaoMing       99      100    80  279
1      LiHua      102       79    92  273

可以看到我們使用了sort_values方法對DataFrame進行排序，同時by參數(shù)傳入‘sum’指定按照‘sum’字段進行排序，ascending用來設(shè)置是降序（False）還是升序（True，默認值）排序。使用sort_values排序后默認會返回一個新的DataFrame對象，也就是說并不會影響原有的DataFrame對象，所以例子中我們才會把排序后的對象賦值給原有的DataFrame對象，如果不想排序后創(chuàng)建新的對象也是可以的，只需要傳入inplace=True即可（在原有的DataFrame基礎(chǔ)上修改）：

df.sort_values(by='sum', ascending=False, inplace=True)
print(df)

Output:
        name  chinese  english  math  sum
2  HanMeiNei      111      130   104  345
0   XiaoMing       99      100    80  279
1      LiHua      102       79    92  273

細心的小伙伴可能會發(fā)現(xiàn)當我們進行排序后，如果DataFrame中的行數(shù)據(jù)有調(diào)整的話，其行的索引值是不會更改的，上述例子中因為我們用了默認的遞增數(shù)列索引，所以排序后看起來并不是很友好，不過不用擔心，我們還是可以重置索引值的：

df = df.sort_values(by='sum', ascending=False).reset_index()

Output:
   index       name  chinese  english  math  sum
0      2  HanMeiNei      111      130   104  345
1      0   XiaoMing       99      100    80  279
2      1      LiHua      102       79    92  273

使用reset_index重設(shè)索引后我們的DataFrame對象的索引列確實被重置成了遞增的序列，同時也多了列名為index的一列數(shù)據(jù)。當然我們可以傳入drop=True將原有的索引列不插入到新的DataFrame中：

df = df.sort_values(by='sum', ascending=False).reset_index(drop=True)

        name  chinese  english  math  sum
0  HanMeiNei      111      130   104  345
1   XiaoMing       99      100    80  279
2      LiHua      102       79    92  273

為了更直觀的展示排名情況，我們可以索引值+1這樣就展示出了學生的排名情況：

df.index += 1

        name  chinese  english  math  sum
1  HanMeiNei      111      130   104  345
2   XiaoMing       99      100    80  279
3      LiHua      102       79    92  273

以上是“Pandas如何實現(xiàn)DataFrame運算、統(tǒng)計與排序操作”這篇文章的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對大家有幫助，更多相關(guān)知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Springboot如何整合JwtHelper實現(xiàn)非對稱加密
下一篇新聞：
Vue如何實現(xiàn)組件間通信方式

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼