<dfn id="2xwel"></dfn><small id="2xwel"></small>

<noframes id="2xwel"><menuitem id="2xwel"></menuitem></noframes>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python機器學(xué)習(xí)中pandas的示例分析

發(fā)布時間：2021-05-11 14:51:19 來源：億速云閱讀：155 作者：小新欄目：開發(fā)技術(shù)

小編給大家分享一下Python機器學(xué)習(xí)中pandas的示例分析，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

python的五大特點是什么

python的五大特點：1.簡單易學(xué)，開發(fā)程序時，專注的是解決問題,而不是搞明白語言本身。2.面向?qū)ο螅c其他主要的語言如C++和Java相比, Python以一種非常強大又簡單的方式實現(xiàn)面向?qū)ο缶幊獭?.可移植性，Python程序無需修改就可以在各種平臺上運行。4.解釋性，Python語言寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序。5.開源，Python是 FLOSS(自由/開放源碼軟件)之一。

一、Pandas

2008年WesMcKinney開發(fā)出的庫

專門用于數(shù)據(jù)挖掘的開源python庫

以Numpy為基礎(chǔ)，借力Numpy模塊在計算方面性能高的優(yōu)勢

基于matplotlib，能夠簡便的畫圖

獨特的數(shù)據(jù)結(jié)構(gòu)

二、數(shù)據(jù)結(jié)構(gòu)

Pandas中一共有三種數(shù)據(jù)結(jié)構(gòu)，分別為：Series、DataFrame和MultiIndex。

三、Series

Series是一個類似于一維數(shù)組的數(shù)據(jù)結(jié)構(gòu)，它能夠保存任何類型的數(shù)據(jù)，比如整數(shù)、字符串、浮點數(shù)等，主要由一組數(shù)據(jù)和與之相關(guān)的索引兩部分構(gòu)成。

Python機器學(xué)習(xí)中pandas的示例分析

Series的創(chuàng)建

import pandas as pd
pd.Series(np.arange(3))

0 0
1 1
2 2
dtype: int64

#指定索引
pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])

1 6.7
2 5.6
3 3.0
4 10.0
5 2.0
dtype: float64

#通過字典數(shù)據(jù)創(chuàng)建
color_count = pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})
color_count

blue 200
green 500
red 100
yellow 1000
dtype: int64

Series的屬性

color_count.index
color_count.values

也可以使用索引來獲取數(shù)據(jù)：

color_count[2]

100

Series排序

data[‘p_change'].sort_values(ascending=True) # 對值進行排序
data[‘p_change'].sort_index() # 對索引進行排序
#series排序時，只有一列，不需要參數(shù)

四、DataFrame

創(chuàng)建

pd.DataFrame(np.random.randn(2,3))

Python機器學(xué)習(xí)中pandas的示例分析

score = np.random.randint(40, 100, (10, 5))
score

array([[92, 55, 78, 50, 50],
[71, 76, 50, 48, 96],
[45, 84, 78, 51, 68],
[81, 91, 56, 54, 76],
[86, 66, 77, 67, 95],
[46, 86, 56, 61, 99],
[46, 95, 44, 46, 56],
[80, 50, 45, 65, 57],
[41, 93, 90, 41, 97],
[65, 83, 57, 57, 40]])

但是這樣的數(shù)據(jù)形式很難看到存儲的是什么的樣的數(shù)據(jù)，可讀性比較差??！

# 使用Pandas中的數(shù)據(jù)結(jié)構(gòu)
score_df = pd.DataFrame(score)

Python機器學(xué)習(xí)中pandas的示例分析

DataFrame的屬性

data.shape
data.index
data.columns
data.values
data.T
data.head(5)
data.tail(5)
data.reset_index(keys, drop=True)
keys : 列索引名成或者列索引名稱的列表
drop : boolean, default True.當(dāng)做新的索引，刪除原來的列

dataframe基本數(shù)據(jù)操作

data[‘open'][‘2018-02-27'] # 直接使用行列索引名字的方式（先列后行）
data.loc[‘2018-02-27':‘2018-02-22', ‘open'] # 使用loc:只能指定行列索引的名字
data.iloc[:3, :5 ]# 使用iloc可以通過索引的下標(biāo)去獲取
data.sort_values(by=“open”, ascending=True) #單個排序
data.sort_values(by=[‘open', ‘high']) # 按照多個鍵進行排序
data.sort_index() # 對索引進行排序

DataFrame運算

應(yīng)用add等實現(xiàn)數(shù)據(jù)間的加、減法運算
應(yīng)用邏輯運算符號實現(xiàn)數(shù)據(jù)的邏輯篩選
應(yīng)用isin, query實現(xiàn)數(shù)據(jù)的篩選
使用describe完成綜合統(tǒng)計
使用max, min, mean, std完成統(tǒng)計計算
使用idxmin、idxmax完成最大值最小值的索引
使用cumsum等實現(xiàn)累計分析
應(yīng)用apply函數(shù)實現(xiàn)數(shù)據(jù)的自定義處理

五、pandas.DataFrame.plot

DataFrame.plot(kind=‘line')
kind : str，需要繪制圖形的種類
‘line' : line plot (default)
‘bar' : vertical bar plot
‘barh' : horizontal bar plot
關(guān)于“barh”的解釋：
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.barh.html
‘hist' : histogram
‘pie' : pie plot
‘scatter' : scatter plot

六、缺失值處理

isnull、notnull判斷是否存在缺失值
np.any(pd.isnull(movie)) # 里面如果有一個缺失值,就返回True
np.all(pd.notnull(movie)) # 里面如果有一個缺失值,就返回False
dropna刪除np.nan標(biāo)記的缺失值
movie.dropna()
fillna填充缺失值
movie[i].fillna(value=movie[i].mean(), inplace=True)
replace替換
wis.replace(to_replace="?", value=np.NaN)

七、數(shù)據(jù)離散化

p_change= data['p_change']
# 自行分組，每組個數(shù)差不多
qcut = pd.qcut(p_change, 10)
# 計算分到每個組數(shù)據(jù)個數(shù)
qcut.value_counts()

# 自己指定分組區(qū)間
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

得出one-hot編碼矩陣

dummies = pd.get_dummies(p_counts, prefix="rise")
#prefix:分組名字前綴

八、數(shù)據(jù)合并

pd.concat([data1, data2], axis=1)
按照行或列進行合并,axis=0為列索引，axis=1為行索引
pd.merge(left, right, how=‘inner', on=None)
可以指定按照兩組數(shù)據(jù)的共同鍵值對合并或者左右各自
left: DataFrame
right: 另一個DataFrame
on: 指定的共同鍵
how:按照什么方式連接

九、交叉表與透視表

交叉表：計算一列數(shù)據(jù)對于另外一列數(shù)據(jù)的分組個數(shù) 透視表：指定某一列對另一列的關(guān)系

#通過交叉表找尋兩列數(shù)據(jù)的關(guān)系
count = pd.crosstab(data['week'], data['posi_neg'])
#通過透視表，將整個過程變成更簡單一些
data.pivot_table(['posi_neg'], index='week')

十、數(shù)據(jù)聚合

count = starbucks.groupby(['Country']).count()
col.groupby(['color'])['price1'].mean()
#拋開聚合談分組，無意義

以上是“Python機器學(xué)習(xí)中pandas的示例分析”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學(xué)習(xí)更多知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
JavaScript如何判斷文件是否存在
下一篇新聞：
java設(shè)計模式之六大原則分別是什么

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼