Python 可以使用多種庫來處理表格數(shù)據(jù),其中最流行的是 pandas 庫。
使用 pandas 可以讀取、處理和分析表格數(shù)據(jù)。下面是一些常見的操作:
read_csv()
函數(shù)來讀取 CSV 文件,也可以使用 read_excel()
函數(shù)來讀取 Excel 文件。import pandas as pd
# 讀取 CSV 文件
data = pd.read_csv('data.csv')
# 讀取 Excel 文件
data = pd.read_excel('data.xlsx')
head()
函數(shù)可以查看表格的前幾行數(shù)據(jù),默認(rèn)為前 5 行,也可以指定查看的行數(shù)。# 查看前 5 行數(shù)據(jù)
data.head()
# 查看前 10 行數(shù)據(jù)
data.head(10)
# 篩選某一列滿足條件的行
filtered_data = data[data['column_name'] > 10]
sort_values()
函數(shù)可以對表格數(shù)據(jù)進(jìn)行排序,可以指定排序的列和排序的順序。# 按某一列進(jìn)行升序排序
sorted_data = data.sort_values('column_name')
# 按某一列進(jìn)行降序排序
sorted_data = data.sort_values('column_name', ascending=False)
describe()
函數(shù)可以對表格數(shù)據(jù)進(jìn)行統(tǒng)計分析,包括計數(shù)、均值、標(biāo)準(zhǔn)差等。# 對數(shù)值列進(jìn)行統(tǒng)計分析
data.describe()
# 刪除重復(fù)行
data.drop_duplicates()
# 填充缺失值
data.fillna(value)
# 計算列間的相關(guān)性
data.corr()
以上是一些常見的表格數(shù)據(jù)處理操作,使用 pandas 可以靈活處理各種復(fù)雜的表格數(shù)據(jù)。