您好,登錄后才能下訂單哦!
這篇文章主要介紹了機器學習中如何在統(tǒng)計數(shù)據(jù)中查找異常值,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
異常值是數(shù)據(jù)集的重要組成部分。它們可以保存有關(guān)您數(shù)據(jù)的有用信息。異常值可以為您正在研究的數(shù)據(jù)提供有用的見解,并且它們可以對統(tǒng)計結(jié)果產(chǎn)生影響。這可能會幫助您發(fā)現(xiàn)不一致之處并檢測統(tǒng)計過程中的任何錯誤。因此,了解如何在數(shù)據(jù)集中查找異常值將有助于您更好地理解數(shù)據(jù)。
有幾種不同的方法可以在統(tǒng)計中找到異常值。本文將解釋如何通過計算四分位距來檢測數(shù)值異常值。我舉了一個非常簡單的數(shù)據(jù)集以及如何計算四分位距的示例,因此您可以根據(jù)需要進行操作。讓我們開始吧!
簡單來說,異常值是相對于最近的數(shù)據(jù)點和您正在使用的數(shù)據(jù)圖或數(shù)據(jù)集中的其余相鄰共存值而言極高或極低的數(shù)據(jù)點。
離群值是從數(shù)據(jù)集或圖形中的整體值模式中顯著突出的極值。
下面,在圖表的最左側(cè),有一個異常值。
一月份的值明顯低于其他月份。
好的,你如何尋找異常值?
異常值必須滿足以下兩個條件之一:
outlier < Q1 - 1.5(IQR)
outlier > Q3 + 1.5(IQR)
低離群值的規(guī)則是數(shù)據(jù)集中的數(shù)據(jù)點必須小于Q1 - 1.5xIQR
。
這意味著數(shù)據(jù)點需要低于第一個四分位數(shù)的四分位間距的 1.5 倍以上才能被視為低異常值。
高離群值的規(guī)則是,如果數(shù)據(jù)集中的任何數(shù)據(jù)點大于Q3 - 1.5xIQR
,則為高離群值。
更具體地說,數(shù)據(jù)點需要落在第三個四分位數(shù)以上的四分位距的 1.5 倍以上才能被視為高異常值。
如您所見,您需要首先在數(shù)據(jù)集中計算某些個別值,例如IQR. 但是要找到IQR,您需要找到分別是Q1和 的所謂的第一四分位數(shù)和第三四分位數(shù) Q3。
所以,讓我們看看它們各自做了什么,并分解如何在奇數(shù)和偶數(shù)數(shù)據(jù)集中找到它們的值。
首先,假設(shè)您有這個數(shù)據(jù)集:
25,14,6,5,5,30,11,11,13,4,2
第一步是按數(shù)字升序?qū)χ颠M行排序,從最小到最大。
2,4,5,5,6,11,11,13,14,25,30
最低值 ( MIN ) 是2,最高值 ( MAX ) 是30。
下一步是找到中位數(shù)或四分位數(shù) 2 (Q2)。
這組特定的數(shù)據(jù)具有奇數(shù)個值,11總分加在一起。
在數(shù)據(jù)集中查找中位數(shù)意味著您正在查找中間值——集合中的單個中間數(shù)。
在奇數(shù)數(shù)據(jù)集中,只有一個中間數(shù)。
因為11總共有值,所以一個簡單的方法是將集合分成兩個相等的部分,每邊包含5值。
中值將5在一側(cè)具有值,在另一側(cè)具有值5。
(2,4,5,5,6), 11,(11,13,14,25,30)
中位數(shù)是11因為它是將前半部分與后半部分分開的數(shù)字。
仔細檢查您是否正確的另一種方法是這樣做:
(total_number_of_scores + 1) / 2.
這是(11 + 1) /2 = 6,這意味著您希望在6th這組數(shù)據(jù)的位置使用數(shù)字 - 即11。
所以Q2 = 11。
接下來,為了找到下四分位數(shù),Q1我們需要找到數(shù)據(jù)集前半部分的中位數(shù),它位于左側(cè)。
提醒一下,初始數(shù)據(jù)集是:
(2,4,5,5,6), 11,(11,13,14,25,30)
數(shù)據(jù)集的前半部分或下半部分不包括中位數(shù):
2,4,5,5,6
這一次,又是一組奇怪的分數(shù)——特別是有5值。
您想再次將這半集分成另一半,每側(cè)有相同數(shù)量的兩個值。您將獲得一個唯一編號,該編號將是5值中間的編號。
選擇突出的中間值:
(2,4), 5,(5,6)
在這種情況下,它是Q1 = 5.
要仔細檢查,您還可以執(zhí)行total_number_of_values + 1 / 2類似于前面的示例:
(5 + 1) /2 = 3.
這意味著您需要第三位的數(shù)字,即5.
要找到上四分位數(shù)Q3,過程與Q1上述相同。但在這種情況下,你在數(shù)據(jù)集的右側(cè)取下半部分,高于中位數(shù),不包括中位數(shù)本身:
(2,4,5,5,6), 11,(11,13,14,25,30)
11,13,14,25,30
您將奇數(shù)集的這一半拆分為另一半以求中位數(shù),然后求出 的值Q3。
您再次希望像上半場一樣排在第三位。
(11,13), 14,(25,30)
所以Q3 = 14。
現(xiàn)在,下一步是計算代表四分位距的 IQR。
這是您在上面計算的下四分位數(shù) (Q1) 和上四分位數(shù) (Q3) 之間的差異/距離。
提醒一下,這樣做的公式如下:
IQR = Q3 - Q1
要從上面找到數(shù)據(jù)集的 IQR:
IQR= 14 - 5 IQR = 9
回顧到目前為止,數(shù)據(jù)集如下:
2,4,5,5,6,11,11,13,14,25,30
到目前為止,您已經(jīng)計算了五個數(shù)字摘要:
MIN = 2 Q1 = 5 MED = 11 Q3 = 14 MAX = 30
最后,讓我們看看數(shù)據(jù)集中是否有任何異常值。
提醒一下,異常值必須符合以下標準:
outlier < Q1 - 1.5(IQR)
或者
outlier > Q3 + 1.5(IQR)
要查看是否有最低值異常值,需要計算第一部分,看看集合中是否有滿足條件的數(shù)字。
Outlier < Q1 - 1.5(IQR) Outlier < 5 - 1.5(9) Outlier < 5 - 13.5 outlier < - 8.5
沒有更低的異常值,因為沒有比-8.5數(shù)據(jù)集中的數(shù)字少的數(shù)字。
接下來,查看是否有更高的異常值:
Outlier > Q3 + 1.5(IQR)= Outlier > 14 + 1.5(9) Outlier > 14 + 13.5 Outlier > 27,5
并且數(shù)據(jù)集中有一個數(shù)字大于27,5:
2,4,5,5,6,11,11,13,14,25,30
在這種情況下,30是現(xiàn)有數(shù)據(jù)集中的異常值。
當您的數(shù)據(jù)集由一組偶數(shù)數(shù)據(jù)組成時會發(fā)生什么?
不僅有一個突出的中位數(shù) (Q2),也沒有突出的上四分位數(shù) (Q1) 或突出的下四分位數(shù) (Q3)。
所以計算四分位數(shù)然后找到異常值的過程有點不同。
假設(shè)你有這個帶有8數(shù)字的數(shù)據(jù)集:
10,15,20,26,28,30,35,40
這一次,數(shù)字已經(jīng)從最低值到最高值排序。
要在偶數(shù)數(shù)據(jù)集中找到中位數(shù),您需要找到位于中間的兩個數(shù)字之間的值。您將它們加在一起并除以2,如下所示:
10,15,20, 26,28,30,35,40
26 + 28 = 54 54 / 2 = 27
要計算偶數(shù)數(shù)據(jù)集中的上四分位數(shù)和下四分位數(shù),您需要保留數(shù)據(jù)集中的所有數(shù)字(而不是在您刪除中位數(shù)的奇數(shù)集中)。
這一次,數(shù)據(jù)集被切成兩半。
10,15,20,26 | 28,30,35,40
為了 find Q1,您將數(shù)據(jù)集的前半部分拆分為另一半,留下剩余的偶數(shù)集:
10,15 | 20,26
要找到這一半的中位數(shù),您可以將中間的兩個數(shù)字除以二:
Q1 = (15 + 20)/2 Q1 = 35 / 2 Q1 = 17,5
要找到Q3,您需要關(guān)注數(shù)據(jù)集的后半部分并將該半部分拆分為另一半:
28,30,35,40 -> 28,30 | 35,40
中間的兩個數(shù)字是30和35。
您將它們相加并將它們除以二,結(jié)果是:
Q3 = (30 + 35)/2 Q3 = 65 / 2 Q3 = 32,5
計算 IQR 的公式與我們用于計算奇數(shù)數(shù)據(jù)集的公式完全相同。
IQR = Q3 - Q1 IQR = 32,5 - 17,5 IQR = 15
回顧一下,到目前為止,五個數(shù)字摘要如下:
MIN = 10 Q1 = 17,5 MED = 27 Q3 = 32,5 MAX = 40
要計算數(shù)據(jù)集中的任何異常值:
outlier < Q1 - 1.5(IQR)
或者
outlier > Q3 + 1.5(IQR)
要找到任何較低的異常值,您可以計算Q1 - 1.5(IQR)并查看是否有任何值小于結(jié)果。
outlier < 17,5 - 1.5(15)= outlier < 17,5 - 22,5 outlier < -5
數(shù)據(jù)集中沒有任何小于 的值-5。
最后,為了找到任何更高的異常值,您計算 Q3 - 1.5(IQR)并查看數(shù)據(jù)集中是否有任何值高于結(jié)果
outlier > 32.5 + 1.5(15)= outlier > 32.5 + 22.5 outlier > 55
沒有任何高于55此數(shù)據(jù)集的值,因此該數(shù)據(jù)集沒有任何異常值。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“機器學習中如何在統(tǒng)計數(shù)據(jù)中查找異常值”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學習!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。