您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)Python箱型圖處理離群點(diǎn)的示例分析,小編覺得挺實(shí)用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
首先我們簡單地區(qū)分一下離群點(diǎn)(outlier)以及異常值(anomaly):
離群點(diǎn):
異常值:
個人覺著異常值和離群點(diǎn)是兩個不同的概念,當(dāng)然大家在數(shù)據(jù)預(yù)處理時(shí)對于這兩個概念不做細(xì)致的區(qū)分,不如:姚明站在我們中間的時(shí)候,我覺著我們只能說他是一個離群點(diǎn),我們能說他異常嗎?異常的假設(shè)是姚明得了巨人癥,可是他不是。
箱型圖
代碼塊
餐飲銷售數(shù)據(jù)離群點(diǎn)檢測代碼:
#-*- coding: utf-8 -*- import pandas as pd catering_sale = '../data/catering_sale.xls' #餐飲數(shù)據(jù) data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數(shù)據(jù),指定“日期”列為索引列 import matplotlib.pyplot as plt #導(dǎo)入圖像庫 plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標(biāo)簽 plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負(fù)號 plt.figure() #建立圖像 p = data.boxplot(return_type='dict') #畫箱線圖,直接使用DataFrame的方法 x = p['fliers'][0].get_xdata() # 'fliers'即為離群點(diǎn)的標(biāo)簽 y = p['fliers'][0].get_ydata() y.sort() #從小到大排序,該方法直接改變原對象 #用annotate添加注釋 #其中有些相近的點(diǎn),注解會出現(xiàn)重疊,難以看清,需要一些技巧來控制。 #以下參數(shù)都是經(jīng)過調(diào)試的,需要具體問題具體調(diào)試。 for i in range(len(x)): if i > 0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱線圖
運(yùn)行結(jié)果:
關(guān)于“Python箱型圖處理離群點(diǎn)的示例分析”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。