溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何處理中國地區(qū)信息

發(fā)布時間:2021-12-31 14:18:28 來源:億速云 閱讀:269 作者:柒染 欄目:開發(fā)技術(shù)

本篇文章為大家展示了Python如何處理中國地區(qū)信息,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。

1.1數(shù)據(jù)的爬取

代碼:

import pandas as pd

data=pd.read_csv("example_data.csv",header=1)

print(data)

data1=pd.read_csv("北京地區(qū)信息.csv",header=1,encoding='gbk')

data2=pd.read_csv("天津地區(qū)信息.csv",encoding='gbk')

print(data1)

print(data2)

代碼運行結(jié)果:

Python如何處理中國地區(qū)信息

首先使用pandasread_csv()方法進行數(shù)據(jù)的讀取,然后就能夠看到相應的表格信息。

1.2檢查重復數(shù)據(jù)

dupnum=data.duplicated()

print(dupnum)

\# 對重復值進行處理

caldup=data.drop_duplicates()

print(caldup)

代碼運行結(jié)果:

Python如何處理中國地區(qū)信息

主要是是使用這個duplicated()方法進行數(shù)據(jù)的查重,返回一個布爾序列,僅對唯一元素而言為True。如果有重復的數(shù)據(jù)就會在該數(shù)值的部分返貨Flase。

然后我們就可以使用drop_duplicates()進行重復值刪除。

1.3檢查缺失值

代碼:

from pandas import Series

from numpy import NAN

\# import pandas as pd 

series_obj=Series([1,None])

pd.notnull(series_obj)

\# 上面做的是測試

pd.notnull(data)

pd.notnull(data1)

pd.notnull(data2)

代碼運行結(jié)果:

Python如何處理中國地區(qū)信息

使用pd.notnull(data1)進行非空數(shù)值的返回, 返回值是布爾型的矩陣,再取df[布爾型矩陣]返回的是id為非空的行。

1.4 檢查異常值

import numpy as np

\# 2.4 檢查異常值

def three_sig(ser1):

  mean_value=ser1.mean()

\#   標準差

  std_value=ser1.std()

\#   位于3σ范圍外的都是異常值

\# 數(shù)值大于u+3σ小雨u-3σ

  rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)

  index=np.arange(ser1.shape[0])[rule]

  outrange=ser1.iloc[index]

  return outrange

three_sig(data2["女性"])

代碼運行結(jié)果:

Python如何處理中國地區(qū)信息

3σ原則又稱為拉依達準則,該準則具體來說,就是先假設一組檢測數(shù)據(jù)只含有隨機誤差,對原始數(shù)據(jù)進行計算處理得到標準差,然后按一定的概率確定一個區(qū)間,認為誤差超過這個區(qū)間的就屬于異常值。

通俗理解就是正態(tài)分布。

上述內(nèi)容就是Python如何處理中國地區(qū)信息,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI