溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

機器學習中如何在統(tǒng)計數(shù)據(jù)中查找異常值

發(fā)布時間:2022-03-18 11:45:58 來源:億速云 閱讀:295 作者:小新 欄目:開發(fā)技術(shù)

這篇文章主要介紹了機器學習中如何在統(tǒng)計數(shù)據(jù)中查找異常值,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

異常值是數(shù)據(jù)集的重要組成部分。它們可以保存有關(guān)您數(shù)據(jù)的有用信息。異常值可以為您正在研究的數(shù)據(jù)提供有用的見解,并且它們可以對統(tǒng)計結(jié)果產(chǎn)生影響。這可能會幫助您發(fā)現(xiàn)不一致之處并檢測統(tǒng)計過程中的任何錯誤。因此,了解如何在數(shù)據(jù)集中查找異常值將有助于您更好地理解數(shù)據(jù)。

有幾種不同的方法可以在統(tǒng)計中找到異常值。本文將解釋如何通過計算四分位距來檢測數(shù)值異常值。我舉了一個非常簡單的數(shù)據(jù)集以及如何計算四分位距的示例,因此您可以根據(jù)需要進行操作。讓我們開始吧!

什么是統(tǒng)計中的異常值?

簡單來說,異常值是相對于最近的數(shù)據(jù)點和您正在使用的數(shù)據(jù)圖或數(shù)據(jù)集中的其余相鄰共存值而言極高或極低的數(shù)據(jù)點。

離群值是從數(shù)據(jù)集或圖形中的整體值模式中顯著突出的極值。

下面,在圖表的最左側(cè),有一個異常值。

一月份的值明顯低于其他月份。

機器學習中如何在統(tǒng)計數(shù)據(jù)中查找異常值

如何識別數(shù)據(jù)集中的異常值

好的,你如何尋找異常值?

異常值必須滿足以下兩個條件之一:

outlier < Q1 - 1.5(IQR)
outlier > Q3 + 1.5(IQR)

低離群值的規(guī)則是數(shù)據(jù)集中的數(shù)據(jù)點必須小于Q1 - 1.5xIQR。

這意味著數(shù)據(jù)點需要低于第一個四分位數(shù)的四分位間距的 1.5 倍以上才能被視為低異常值。

高離群值的規(guī)則是,如果數(shù)據(jù)集中的任何數(shù)據(jù)點大于Q3 - 1.5xIQR,則為高離群值。

更具體地說,數(shù)據(jù)點需要落在第三個四分位數(shù)以上的四分位距的 1.5 倍以上才能被視為高異常值。

如您所見,您需要首先在數(shù)據(jù)集中計算某些個別值,例如IQR. 但是要找到IQR,您需要找到分別是Q1和 的所謂的第一四分位數(shù)和第三四分位數(shù) Q3。

所以,讓我們看看它們各自做了什么,并分解如何在奇數(shù)和偶數(shù)數(shù)據(jù)集中找到它們的值。

如何在奇數(shù)數(shù)據(jù)集中找到上下四分位數(shù)

首先,假設(shè)您有這個數(shù)據(jù)集:

25,14,6,5,5,30,11,11,13,4,2

第一步是按數(shù)字升序?qū)χ颠M行排序,從最小到最大。

2,4,5,5,6,11,11,13,14,25,30

最低值 ( MIN ) 是2,最高值 ( MAX ) 是30。

如何在奇數(shù)數(shù)據(jù)集中計算Q2

下一步是找到中位數(shù)或四分位數(shù) 2 (Q2)。

這組特定的數(shù)據(jù)具有奇數(shù)個值,11總分加在一起。

在數(shù)據(jù)集中查找中位數(shù)意味著您正在查找中間值——集合中的單個中間數(shù)。

在奇數(shù)數(shù)據(jù)集中,只有一個中間數(shù)。

因為11總共有值,所以一個簡單的方法是將集合分成兩個相等的部分,每邊包含5值。

中值將5在一側(cè)具有值,在另一側(cè)具有值5。

(2,4,5,5,6), 11,(11,13,14,25,30)

中位數(shù)是11因為它是將前半部分與后半部分分開的數(shù)字。

仔細檢查您是否正確的另一種方法是這樣做:

(total_number_of_scores + 1) / 2.

這是(11 + 1) /2 = 6,這意味著您希望在6th這組數(shù)據(jù)的位置使用數(shù)字 - 即11。

所以Q2 = 11。

如何在奇數(shù)數(shù)據(jù)集中計算Q1

接下來,為了找到下四分位數(shù),Q1我們需要找到數(shù)據(jù)集前半部分的中位數(shù),它位于左側(cè)。

提醒一下,初始數(shù)據(jù)集是:

(2,4,5,5,6), 11,(11,13,14,25,30)

數(shù)據(jù)集的前半部分或下半部分不包括中位數(shù):

2,4,5,5,6

這一次,又是一組奇怪的分數(shù)——特別是有5值。

您想再次將這半集分成另一半,每側(cè)有相同數(shù)量的兩個值。您將獲得一個唯一編號,該編號將是5值中間的編號。

選擇突出的中間值:

(2,4), 5,(5,6)

在這種情況下,它是Q1 = 5.

要仔細檢查,您還可以執(zhí)行total_number_of_values + 1 / 2類似于前面的示例:

(5 + 1) /2 = 3.

這意味著您需要第三位的數(shù)字,即5.

如何在奇數(shù)數(shù)據(jù)集中計算Q3

要找到上四分位數(shù)Q3,過程與Q1上述相同。但在這種情況下,你在數(shù)據(jù)集的右側(cè)取下半部分,高于中位數(shù),不包括中位數(shù)本身:

(2,4,5,5,6), 11,(11,13,14,25,30)

11,13,14,25,30

您將奇數(shù)集的這一半拆分為另一半以求中位數(shù),然后求出 的值Q3。

您再次希望像上半場一樣排在第三位。

(11,13), 14,(25,30)

所以Q3 = 14。

如何在奇數(shù)數(shù)據(jù)集中計算IQR

現(xiàn)在,下一步是計算代表四分位距的 IQR。

這是您在上面計算的下四分位數(shù) (Q1) 和上四分位數(shù) (Q3) 之間的差異/距離。

提醒一下,這樣做的公式如下:

IQR = Q3 - Q1

要從上面找到數(shù)據(jù)集的 IQR:

IQR= 14 - 5
IQR = 9

如何在奇數(shù)數(shù)據(jù)集中找到異常值

回顧到目前為止,數(shù)據(jù)集如下:

2,4,5,5,6,11,11,13,14,25,30

到目前為止,您已經(jīng)計算了五個數(shù)字摘要:

MIN = 2
Q1 = 5
MED = 11
Q3 = 14
MAX = 30

最后,讓我們看看數(shù)據(jù)集中是否有任何異常值。

提醒一下,異常值必須符合以下標準:

outlier < Q1 - 1.5(IQR)

或者

outlier > Q3 + 1.5(IQR)

要查看是否有最低值異常值,需要計算第一部分,看看集合中是否有滿足條件的數(shù)字。

Outlier < Q1 - 1.5(IQR)
Outlier < 5 - 1.5(9)
Outlier < 5 - 13.5 
outlier < - 8.5

沒有更低的異常值,因為沒有比-8.5數(shù)據(jù)集中的數(shù)字少的數(shù)字。

接下來,查看是否有更高的異常值:

Outlier > Q3  + 1.5(IQR)=
Outlier > 14 + 1.5(9)
Outlier > 14 + 13.5
Outlier > 27,5

并且數(shù)據(jù)集中有一個數(shù)字大于27,5:

2,4,5,5,6,11,11,13,14,25,30

在這種情況下,30是現(xiàn)有數(shù)據(jù)集中的異常值。

如何在偶數(shù)數(shù)據(jù)集中找到上下四分位數(shù)

當您的數(shù)據(jù)集由一組偶數(shù)數(shù)據(jù)組成時會發(fā)生什么?

不僅有一個突出的中位數(shù) (Q2),也沒有突出的上四分位數(shù) (Q1) 或突出的下四分位數(shù) (Q3)。

所以計算四分位數(shù)然后找到異常值的過程有點不同。

如何在偶數(shù)數(shù)據(jù)集中計算Q2

假設(shè)你有這個帶有8數(shù)字的數(shù)據(jù)集:

10,15,20,26,28,30,35,40

這一次,數(shù)字已經(jīng)從最低值到最高值排序。

要在偶數(shù)數(shù)據(jù)集中找到中位數(shù),您需要找到位于中間的兩個數(shù)字之間的值。您將它們加在一起并除以2,如下所示:

10,15,20, 26,28,30,35,40

26 + 28 = 54
54 / 2 = 27

如何在偶數(shù)數(shù)據(jù)集中計算Q1

要計算偶數(shù)數(shù)據(jù)集中的上四分位數(shù)和下四分位數(shù),您需要保留數(shù)據(jù)集中的所有數(shù)字(而不是在您刪除中位數(shù)的奇數(shù)集中)。

這一次,數(shù)據(jù)集被切成兩半。

10,15,20,26 | 28,30,35,40

為了 find Q1,您將數(shù)據(jù)集的前半部分拆分為另一半,留下剩余的偶數(shù)集:

10,15 | 20,26

要找到這一半的中位數(shù),您可以將中間的兩個數(shù)字除以二:

Q1 = (15 + 20)/2
Q1 =  35 / 2
Q1 = 17,5

如何在偶數(shù)數(shù)據(jù)集中計算Q3

要找到Q3,您需要關(guān)注數(shù)據(jù)集的后半部分并將該半部分拆分為另一半:

28,30,35,40 -> 28,30 | 35,40

中間的兩個數(shù)字是30和35。

您將它們相加并將它們除以二,結(jié)果是:

Q3 = (30 + 35)/2
Q3 =  65 / 2
Q3 = 32,5

如何計算偶數(shù)數(shù)據(jù)集中的IQR

計算 IQR 的公式與我們用于計算奇數(shù)數(shù)據(jù)集的公式完全相同。

IQR = Q3 - Q1
IQR = 32,5 - 17,5
IQR = 15

如何在偶數(shù)數(shù)據(jù)集中找到異常值

回顧一下,到目前為止,五個數(shù)字摘要如下:

MIN = 10
Q1 = 17,5
MED = 27
Q3 = 32,5
MAX = 40

要計算數(shù)據(jù)集中的任何異常值:

outlier < Q1 - 1.5(IQR)

或者

outlier > Q3 + 1.5(IQR)

要找到任何較低的異常值,您可以計算Q1 - 1.5(IQR)并查看是否有任何值小于結(jié)果。

outlier < 17,5 - 1.5(15)=
outlier < 17,5 - 22,5
outlier < -5

數(shù)據(jù)集中沒有任何小于 的值-5。

最后,為了找到任何更高的異常值,您計算 Q3 - 1.5(IQR)并查看數(shù)據(jù)集中是否有任何值高于結(jié)果

outlier > 32.5 + 1.5(15)=
outlier > 32.5 + 22.5
outlier > 55

沒有任何高于55此數(shù)據(jù)集的值,因此該數(shù)據(jù)集沒有任何異常值。

感謝你能夠認真閱讀完這篇文章,希望小編分享的“機器學習中如何在統(tǒng)計數(shù)據(jù)中查找異常值”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學習!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI