溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python箱型圖處理離群點(diǎn)的示例分析

發(fā)布時(shí)間:2021-07-26 14:04:31 來源:億速云 閱讀:248 作者:小新 欄目:開發(fā)技術(shù)

這篇文章將為大家詳細(xì)講解有關(guān)Python箱型圖處理離群點(diǎn)的示例分析,小編覺得挺實(shí)用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

首先我們簡單地區(qū)分一下離群點(diǎn)(outlier)以及異常值(anomaly):

離群點(diǎn):

Python箱型圖處理離群點(diǎn)的示例分析

異常值:

個人覺著異常值和離群點(diǎn)是兩個不同的概念,當(dāng)然大家在數(shù)據(jù)預(yù)處理時(shí)對于這兩個概念不做細(xì)致的區(qū)分,不如:姚明站在我們中間的時(shí)候,我覺著我們只能說他是一個離群點(diǎn),我們能說他異常嗎?異常的假設(shè)是姚明得了巨人癥,可是他不是。

箱型圖

Python箱型圖處理離群點(diǎn)的示例分析

Python箱型圖處理離群點(diǎn)的示例分析

代碼塊

餐飲銷售數(shù)據(jù)離群點(diǎn)檢測代碼:

#-*- coding: utf-8 -*-
import pandas as pd

catering_sale = '../data/catering_sale.xls' #餐飲數(shù)據(jù)
data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數(shù)據(jù),指定“日期”列為索引列

import matplotlib.pyplot as plt #導(dǎo)入圖像庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負(fù)號

plt.figure() #建立圖像
p = data.boxplot(return_type='dict') #畫箱線圖,直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'fliers'即為離群點(diǎn)的標(biāo)簽
y = p['fliers'][0].get_ydata()
y.sort() #從小到大排序,該方法直接改變原對象

#用annotate添加注釋
#其中有些相近的點(diǎn),注解會出現(xiàn)重疊,難以看清,需要一些技巧來控制。
#以下參數(shù)都是經(jīng)過調(diào)試的,需要具體問題具體調(diào)試。
for i in range(len(x)): 
 if i > 0:
  plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
 else:
  plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show() #展示箱線圖

運(yùn)行結(jié)果:

Python箱型圖處理離群點(diǎn)的示例分析

關(guān)于“Python箱型圖處理離群點(diǎn)的示例分析”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI