溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

如何使用pandas解決常見(jiàn)的預(yù)處理任務(wù)

發(fā)布時(shí)間:2021-11-30 14:58:35 來(lái)源:億速云 閱讀:171 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要為大家展示了“如何使用pandas解決常見(jiàn)的預(yù)處理任務(wù)”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“如何使用pandas解決常見(jiàn)的預(yù)處理任務(wù)”這篇文章吧。

數(shù)據(jù)預(yù)處理常用的處理步驟,包括找出異常值、處理缺失值、過(guò)濾不合適值、去掉重復(fù)行、分箱、分組、排名、category轉(zhuǎn)數(shù)值等,下面使用 pandas  解決這些最常見(jiàn)的預(yù)處理任務(wù)。

找出異常值常用兩種方法:

  • 標(biāo)準(zhǔn)差法:異常值平均值上下1.96個(gè)標(biāo)準(zhǔn)差區(qū)間以外的值

  • 分位數(shù)法:小于 1/4分位數(shù)減去 1/4和3/4分位數(shù)差的1.5倍,大于3/4減去 1/4和3/4分位數(shù)差的1.5倍,都為異常值

技能1 :標(biāo)準(zhǔn)差法

import pandas as pd  df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})  # 異常值平均值上下1.96個(gè)標(biāo)準(zhǔn)差區(qū)間以外的值 meangrade = df['a'].mean() stdgrade = df['a'].std() toprange = meangrade + stdgrade * 1.96 botrange = meangrade - stdgrade * 1.96  # 過(guò)濾區(qū)間外的值 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a']         > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a']         < botrange].index) copydf

技能2:分位數(shù)法

q1 = df['a'].quantile(.25) q3 = df['a'].quantile(.75) iqr = q3-q1 toprange = q3 + iqr * 1.5 botrange = q1 - iqr * 1.5  copydf = df copydfcopydf = copydf.drop(copydf[copydf['a']         > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a']         < botrange].index) copydf

技能3:處理空值

np.nan 是 pandas 中常見(jiàn)空值,使用 dropna 過(guò)濾空值,axis 0 表示按照行,1 表示按列,how 默認(rèn)為 any  ,意思是只要有一個(gè) nan 就過(guò)濾某行或某列,all 所有都為 nan

# axis 0 表示按照行,all 此行所有值都為 nan df.dropna(axis=0, how='all')

技能4:充填空值

空值一般使用某個(gè)統(tǒng)計(jì)值填充,如平均數(shù)、眾數(shù)、中位數(shù)等,使用函數(shù) fillna:

# 使用a列平均數(shù)填充列的空值,inplace true表示就地填充 df["a"].fillna(df["a"].mean(), inplace=True)

技能5:修復(fù)不合適值

假如某門(mén)課最高分100,如果出現(xiàn) -2, 120 這樣的值,顯然不合理,使用布爾類(lèi)型的Series對(duì)象修改數(shù)值:

df.loc[(df['a'] < -2,'a')] = 0 df.loc[(df['a'] >= 100,'a')] = 100

技能6:過(guò)濾重復(fù)值

過(guò)濾某列重復(fù)值,使用 drop_duplicated 方法,第一個(gè)參數(shù)為列名,keep關(guān)鍵字等于last:最后一次出現(xiàn)此值行:

df.drop_duplicates(['Names'], keep='last')

技能7:apply 元素級(jí):去掉特殊字符

某列單元格含有特殊字符,如標(biāo)點(diǎn)符號(hào),使用元素級(jí)操作方法 apply 干掉它們:

import string exclude = set(string.punctuation)  def remove_punctuation(x):     x = ''.join(ch for ch in x if ch not in exclude)     return x # 原df Out[26]:        a       b 0   c,d  edc.rc 1     3       3 2  d ef       4  # 過(guò)濾a列標(biāo)點(diǎn) In [27]: dfdf.a = df.a.apply(remove_punctuation)  In [28]: df                 Out[28]:        a       b 0    cd  edc.rc 1     3       3 2  d ef       4

技能8:cut 數(shù)據(jù)分箱

將百分制分?jǐn)?shù)轉(zhuǎn)為A,B,C,D四個(gè)等級(jí),bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B',  'A']:

# 生成20個(gè)[0,100]的隨機(jī)整數(shù) In [30]: a = np.random.randint(1,100,20)                    In [31]: a                                     Out[31]:  array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43])  # cut分箱 In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              Out[33]:  [D, D, D, B, D, ..., D, A, A, D, D] Length: 20 Categories (4, object): [D < C < B < A]

技能9:rank 排名

rank 方法,生成數(shù)值排名,ascending 為False,分值越大,排名越靠前:

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  In [53]: df['a'].rank(ascending=False)                    Out[53]:  0    4.0 1    2.0 2    1.0 3    3.0 4    5.0

技能10:category列轉(zhuǎn)數(shù)值

某列取值只可能為有限個(gè)枚舉值,往往需要轉(zhuǎn)為數(shù)值,使用get_dummies,或自己定義函數(shù):

pd.get_dummies(df['a'])

自定義函數(shù),結(jié)合 apply:

def c2n(x):     if x=='A':         return 95     if x=='B':         return 80  df['a'].apply(c2n)

以上結(jié)合數(shù)據(jù)預(yù)處理的十個(gè)小任務(wù),分別找到對(duì)應(yīng)pandas中的實(shí)現(xiàn)。

以上是“如何使用pandas解決常見(jiàn)的預(yù)處理任務(wù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI