溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

pandas如何處理缺失值

發(fā)布時(shí)間:2020-08-22 03:46:43 來源:腳本之家 閱讀:216 作者:修煉之路 欄目:開發(fā)技術(shù)

在實(shí)際應(yīng)用中對(duì)于數(shù)據(jù)進(jìn)行分析的時(shí)候,經(jīng)常能看見缺失值,下面來介紹一下如何利用pandas來處理缺失值。常見的缺失值處理方式有,過濾、填充。

一、缺失值的判斷

pandas使用浮點(diǎn)值NaN(Not a Number)表示浮點(diǎn)數(shù)和非浮點(diǎn)數(shù)組中的缺失值,同時(shí)python內(nèi)置None值也會(huì)被當(dāng)作是缺失值。

a、Series的缺失值判斷

  s = Series(["a","b",np.nan,"c",None])
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #判斷缺失值,如果是則返回True,否則返回False
  print(s.isnull())
  '''
  0  False
  1  False
  2   True
  3  False
  4   True
  '''
  #輸出缺失值的索引和值
  print(s[s.isnull()])
  '''
  2   NaN
  4  None
  '''

b、DataFrame的缺失值判斷

  a = [[1,np.nan,2],[3,4,None]]
  data = DataFrame(a)
  #DataFrame的None值變成了NaN
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 3 4.0 NaN
  '''
  print(data.isnull())
  '''
      0   1   2
  0 False  True False
  1 False False  True
  '''
  print(data[data.isnull()])
  '''
    0  1  2
  0 NaN NaN NaN
  1 NaN NaN NaN
  '''

注意:在使用Series和DataFrame的時(shí)候,如果其中有值為None,Series會(huì)輸出None,而DataFrame會(huì)輸出NaN,但是對(duì)空值判斷沒有影響。DataFrame使用isnull方法在輸出空值的時(shí)候全為NaN,因?yàn)镈ataFrame對(duì)于False對(duì)應(yīng)的位置,輸出值會(huì)使用NaN代替,而Series對(duì)于Fasel對(duì)應(yīng)的位置是沒有輸出值的。

二、過濾缺失數(shù)據(jù)

a、Series的缺失值過濾

  s = Series(["a","b",np.nan,"c",None])
  #通過使用notnull方法來獲取非缺失數(shù)據(jù)
  print(s[s.notnull()])
  '''
  0  a
  1  b
  3  c
  '''
  #使用dropna方法刪除缺失數(shù)據(jù),返回一個(gè)刪除后的Series
  print(s.dropna())
  '''
  0  a
  1  b
  3  c
  '''
  #并沒有在原來的Series上進(jìn)行直接刪除
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #通過設(shè)置inplace參數(shù)為True,在原Series上進(jìn)行刪除,不會(huì)返回Series
  print(s.dropna(inplace=True))
  #None
  print(s)
  '''
  0  a
  1  b
  3  c
  '''

b、DataFrame的缺失值過濾

DataFrame刪除缺失值相對(duì)于Series而言就要復(fù)雜一些,也許有的時(shí)候你是想刪除含有缺失值的行或列,也許有時(shí)候你需要?jiǎng)h除的是,當(dāng)整行或整列全為缺失值的時(shí)候才刪除,好在pandas對(duì)于這兩種情況都有相對(duì)應(yīng)的處理方法。

1、刪除含有缺失值的行和列

  a = [[1, np.nan, 2],[9,None,np.nan],[3, 4, None],[5,6,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 9 NaN NaN
  2 3 4.0 NaN
  3 5 6.0 7.0 
  '''
  #使用dropna方法刪除含有缺失值的行,默認(rèn)是行
  print(data.dropna())
  '''
    0  1  2
  3 5 6.0 7.0
  '''
  #刪除含有缺失值的列
  print(data.dropna(axis=1))
  '''
    0
  0 1
  1 9
  2 3
  3 5
  '''

2、刪除全為NaN的行和列

   a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #當(dāng)行全為NaN的時(shí)候,才刪除,參數(shù)how默認(rèn)是any,含有缺失值就刪除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #當(dāng)列全為NaN的時(shí)候,才刪除
  print(data.dropna(how="all",axis=1))
  '''
     0  2
  0 1.0 2.0
  1 NaN NaN
  2 3.0 NaN
  3 5.0 7.0
  '''

dropna方法的inplace的設(shè)置與Series一樣。

3、指定刪除數(shù)據(jù)后顯示部分?jǐn)?shù)據(jù)觀察

  a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #當(dāng)行全為NaN的時(shí)候,才刪除,參數(shù)how默認(rèn)是any,含有缺失值就刪除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #通過thresh參數(shù)來控制顯示刪除數(shù)據(jù)的條數(shù),刪除列的時(shí)候thresh參數(shù)無效
  print(data.dropna(how="all",thresh=2))
  '''
     0  1  2
  0 1.0 NaN 2.0
  3 5.0 NaN 7.0
  '''

三、填充缺失值

數(shù)據(jù)都是寶貴的,也許有時(shí)候你的數(shù)據(jù)不夠多,因?yàn)閿?shù)據(jù)越多對(duì)于模型的訓(xùn)練,數(shù)據(jù)分析都是有好處的,所以很多的時(shí)候我們都不想刪除數(shù)據(jù)。通常情況下,也許你會(huì)選擇用一些特殊值來填充缺失值。下面介紹使用pandas的fillna方法來填充缺失數(shù)據(jù)。

1、指定特殊值填充缺失值

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #用0填充所有的缺失數(shù)據(jù)
  print(data.fillna(0))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 0.0 6.0
  2 3 7.0 0.0
  3 5 0.0 7.0
  '''

2、不同列使用不同的填充值

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna({1:1,2:2}))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 1.0 6.0
  2 3 7.0 2.0
  3 5 1.0 7.0
  '''

3、前向填充和后向填充

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #前向填充,使用默認(rèn)是上一行的值,設(shè)置axis=1可以使用列進(jìn)行填充
  print(data.fillna(method="ffill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 2.0 6.0
  2 3 7.0 6.0
  3 5 7.0 7.0
  '''
  #后向填充,使用下一行的值,不存在的時(shí)候就不填充
  print(data.fillna(method="bfill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 7.0 6.0
  2 3 7.0 7.0
  3 5 NaN 7.0
  '''

4、使用列的平均值進(jìn)行填充

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna(data.mean()))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 4.5 6.0
  2 3 7.0 5.0
  3 5 4.5 7.0
  '''

以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持億速云。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI