您好,登錄后才能下訂單哦!
pandas的數(shù)據(jù)結(jié)構(gòu)常用到一維(series),二維(DataFrame)等:
對(duì)于二維數(shù)據(jù)
二維數(shù)據(jù)包含行索引和列索引
行索引叫index,axis=0
列索引叫columns,axis=1
下面使用代碼構(gòu)造一個(gè)二維結(jié)構(gòu)數(shù)據(jù)如下:
import pandas as pd
import numpy as np
# normal里面參數(shù),此次構(gòu)造的是平均值為0,標(biāo)準(zhǔn)差為1,10行11列數(shù)據(jù)
test_data = np.random.normal(0,1,[10,11])
test_data_frame = pd.DataFrame(test_data)
print(test_data_frame)
可以看出,默認(rèn)添加了行索引[index]和列索引[columns]
若需要自己指定行索引或者列索引,可以在構(gòu)造DataFrame時(shí)加相應(yīng)參數(shù),如下這樣: np.random.normal(0,1,[10,11])
index_list = ["row"+str(i) for i in range(10)]
column_list = ["column"+str(i) for i in range(11)]
test_data_frame = pd.DataFrame(test_data,index=index_list,columns=column_list)
print(test_data_frame)
打印效果如下:
可以通過(guò)test_data .shape獲取數(shù)據(jù)的行列形狀([10,11]),即可以這樣獲取數(shù)據(jù)的行數(shù)和列數(shù):
# 獲取行數(shù)
test_data.shape[0]
# 獲取列數(shù)
test_data.shape[1]
對(duì)于DataFrame的其他數(shù)據(jù)獲取如下:
# 獲取行索引列表
test_data_frame.index
# 獲取列索引列表
test_data_frame.columns
# 獲取除索引外的數(shù)據(jù)矩陣值
test_data_frame.values
# 將數(shù)據(jù)轉(zhuǎn)置(包括索引)
test_data_frame.T
# 獲取數(shù)據(jù)前num行(若沒(méi)有num值,默認(rèn)獲取前五行)
num=5
test_data_frame.head(num)
# 獲取數(shù)據(jù)后num行(若沒(méi)有num值,默認(rèn)獲取后五行)
test_data_frame.tail(num)
# 將原來(lái)的行索引刪除,變成默認(rèn)的數(shù)字行索引
test_data_frame = test_data_frame.reset_index(drop=True)
# 將原來(lái)的行索引變成值,用默認(rèn)的數(shù)字行索引作為行索引
test_data_frame = test_data_frame.reset_index()
還可以設(shè)置多重索引如下:
test_data_frame=test_data_frame.set_index(keys=['column0','column1'])
print(test_data_frame)
打印效果如下:
此時(shí)的數(shù)據(jù)結(jié)構(gòu)為MultiIndex結(jié)構(gòu)數(shù)據(jù)(三維數(shù)據(jù))
可以通過(guò)pandas生成一組連續(xù)時(shí)間序列
# 構(gòu)建一個(gè)從2018.1.1開(kāi)始的10天時(shí)間序列
date_test = pd.date_range(start='2018-1-1',end=None,periods=10,freq="D")
print(date_test)
打印效果如下:
其中start為開(kāi)始時(shí)間,end為結(jié)束時(shí)間,periods為相隔天數(shù)(若無(wú)end的情況下),freq為指定間隔時(shí)間,默認(rèn)為“D”(每天),可以指定“12H”表示每12小時(shí),“B”每個(gè)工作日(周一到周五,包含節(jié)假日)
series一維結(jié)構(gòu):
一維數(shù)據(jù)(series)只有行索引
即將二維Dataframe取特定行就是一維數(shù)據(jù)如:
serise_data = test_data_frame['column1']
print(serise_data)
打印效果如下:
pandas中二維Dataframe數(shù)據(jù)獲取
直接使用索引獲取數(shù)據(jù)必須先列后行
如取第一列,第三行數(shù)據(jù),test_data_frame[‘column0’][‘row2’]
通過(guò)索引獲取數(shù)據(jù):
通過(guò)索引名獲取范圍數(shù)據(jù)
# start_index:end_index,表示開(kāi)始的行索引到結(jié)束的行索引,xx_column表示取哪一列的值
test_data_frame.loc[start_index:end_index,xx_column]
通過(guò)索引下標(biāo)獲取范圍數(shù)據(jù)
# 表示取第0行到第3行的xx_column列的值
test_data_frame.iloc[0:3,xx_column]
通過(guò)索引進(jìn)行排序
# ascending默認(rèn)為T(mén)ure升序
test_data_frame = test_data_frame.sort_index(ascending=False,)
print(test_data_frame)
打印效果如下:
通過(guò)內(nèi)容進(jìn)行排序
# by指定通過(guò)哪一列排序,此處為第二列,降序
test_data_frame = test_data_frame.sort_values(by="column1",ascending=False,)
print(test_data_frame)
打印效果如下:
DataFrame數(shù)據(jù)統(tǒng)計(jì)分析的基本方法
求極值的方法
求最大值:
# 對(duì)列求最大值
test_data_frame.max(0)
# 對(duì)行求最大值
test_data_frame.max(1)
# 求最小值同理
test_data_frame.max(0) #對(duì)列求最小值
test_data_frame.max(1) #對(duì)行求最小值
對(duì)列求最大值如下:
對(duì)行求最大值如下:
還可以獲取最大值和最小值的位置
# 獲取列最大值的位置
test_data_frame.idxmax(axis=0)
# 獲取行最大值的位置
test_data_frame.idxmax(axis=1)
# 獲取列最小值得位置
test_data_frame.idxmin(axis=0)
# 獲取行最小值得位置
test_data_frame.idxmin(axis=1)
列最大值的位置如下:
行最大值位置如下:
累計(jì)求和無(wú)錫正規(guī)婦科醫(yī)院 http://www.jlfukeyy.com/
# 累計(jì)求第二列的值
test_data_frame.column1.cumsum()
打印結(jié)果如下:
不能使用test_data_frame.row1.cumsum()累計(jì)求行的和
通過(guò)比較大小來(lái)篩選數(shù)據(jù)
# 取第二列大于0,且第四列大于0的數(shù)據(jù)
test_data_frame[(test_data_frame['column1'] > 0) & (test_data_frame['column3'] > 0)]
打印效果如下:
還可以這樣篩選如下:
# 取第二列大于0,且第四列大于0的數(shù)據(jù)
test_data_frame.query("column1>0 & column3>0")
打印結(jié)果與上面一致
文件讀寫(xiě)方法
讀取csv文件
# 讀取xxxx.csv文件,并只讀取第二列和第三列數(shù)據(jù)
csv_dataframe = pd.read_csv("xxxx.csv",usecols=['column1', 'column2'])
讀取excel文件
# 讀取xxx.xlsx文件
excel_data = pd.read_excel('xxx.xlsx')
寫(xiě)入csv文件
# index表示是否將行索引寫(xiě)入文件,columns指定將哪幾列寫(xiě)入到文件
# mode默認(rèn)為r,表示重寫(xiě),a表示追加,header表示是否將索引列寫(xiě)入文件
test_data_frame.to_csv('xxx.csv',index=False,columns=['column1','column2','column3'],mode='a',header=False)
寫(xiě)入到excel文件類(lèi)似的
# index表示是否將行索引寫(xiě)入文件,columns指定將哪幾列寫(xiě)入到文件
# excel沒(méi)有mode參數(shù),header表示是否將索引列寫(xiě)入文件
test_data_frame.to_excel('xxx.xlsx',index=False,columns=['column1','column2','column3'],header=False)
excel如下:
缺失值處理的方法
處理缺失值為NaN的數(shù)據(jù)
可以刪除NaN的行:test_data_frame.dropna()
也可以以其他值添加:
# 將第二列數(shù)據(jù)的NaN值用該列的平均值替換,test_data_frame['column1'].mean()取第二列的平均值
test_data_frame['column1'].fillna(test_data_frame['column1'].mean(),inplace=True)
處理缺失值為其他(如?)的數(shù)據(jù)
其他格式異常值替換可以先將其替換成NaN的值再通過(guò)NaN替換成其他如平均值等
# 將test_data_frame 中的?全部替換成NaN的值
test_data_frame = test_data_frame.replace(to_replace="?",value=np.nan)
然后再通過(guò)上面的缺失值NaN處理
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。