您好,登錄后才能下訂單哦!
本篇文章為大家展示了Python如何處理中國地區(qū)信息,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
代碼:
import pandas as pd data=pd.read_csv("example_data.csv",header=1) print(data) data1=pd.read_csv("北京地區(qū)信息.csv",header=1,encoding='gbk') data2=pd.read_csv("天津地區(qū)信息.csv",encoding='gbk') print(data1) print(data2)
代碼運行結(jié)果:
首先使用pandas
的read_csv()
方法進行數(shù)據(jù)的讀取,然后就能夠看到相應的表格信息。
dupnum=data.duplicated() print(dupnum) \# 對重復值進行處理 caldup=data.drop_duplicates() print(caldup)
代碼運行結(jié)果:
主要是是使用這個duplicated()
方法進行數(shù)據(jù)的查重,返回一個布爾序列,僅對唯一元素而言為True
。如果有重復的數(shù)據(jù)就會在該數(shù)值的部分返貨Flase
。
然后我們就可以使用drop_duplicates()
進行重復值刪除。
代碼:
from pandas import Series from numpy import NAN \# import pandas as pd series_obj=Series([1,None]) pd.notnull(series_obj) \# 上面做的是測試 pd.notnull(data) pd.notnull(data1) pd.notnull(data2)
代碼運行結(jié)果:
使用pd.notnull(data1)
進行非空數(shù)值的返回, 返回值是布爾型的矩陣,再取df[布爾型矩陣]返回的是id為非空的行。
import numpy as np \# 2.4 檢查異常值 def three_sig(ser1): mean_value=ser1.mean() \# 標準差 std_value=ser1.std() \# 位于3σ范圍外的都是異常值 \# 數(shù)值大于u+3σ小雨u-3σ rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1) index=np.arange(ser1.shape[0])[rule] outrange=ser1.iloc[index] return outrange three_sig(data2["女性"])
代碼運行結(jié)果:
3σ原則又稱為拉依達準則,該準則具體來說,就是先假設一組檢測數(shù)據(jù)只含有隨機誤差,對原始數(shù)據(jù)進行計算處理得到標準差,然后按一定的概率確定一個區(qū)間,認為誤差超過這個區(qū)間的就屬于異常值。
通俗理解就是正態(tài)分布。
上述內(nèi)容就是Python如何處理中國地區(qū)信息,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。