溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)科學(xué)異常值檢測原理是什么?

發(fā)布時間:2020-03-23 17:31:47 來源:億速云 閱讀:450 作者:小新 欄目:大數(shù)據(jù)

  數(shù)據(jù)科學(xué)異常值檢測原理是什么?異常值的檢測方法有基于統(tǒng)計的方法,基于聚類的方法,以及一些專門檢測異常值的方法等。使用pandas,可以直接使用describe()來觀察數(shù)據(jù)的統(tǒng)計性描述,或者簡單使用散點(diǎn)圖也能很清晰的觀察到異常值的存在。一起跟小編來看看吧!

數(shù)據(jù)科學(xué)異常值檢測原理是什么?

  一、數(shù)據(jù)科學(xué)異常值檢測前提
  數(shù)據(jù)樣本符合標(biāo)準(zhǔn)正態(tài)分布,正態(tài)分布的核心是中心極限定理即:如果一個事物受到多種因素的影響,不管每個因素本身是什么分布,它們加總后,結(jié)果的平均值就是正態(tài)分布。如果要符合正態(tài)分布則這些因素必須彼此獨(dú)立,彼此不獨(dú)立的各項因素會互相加強(qiáng)影響,那么就構(gòu)不成正態(tài)分布。
  二、數(shù)據(jù)科學(xué)異常值檢測原理
  標(biāo)準(zhǔn)正態(tài)分布下的曲線為鐘型曲線,期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。因此對于一組數(shù)據(jù),如果符合正態(tài)分布,則可以通過經(jīng)驗法則來檢測異常值,同圖中可以發(fā)現(xiàn),68.2%的測量值落在μ值處正負(fù)一個標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),95.4%的測量值將落在μ值處正負(fù)兩個標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),99.7%的值落在μ值處正負(fù)三個標(biāo)準(zhǔn)差σ的區(qū)間內(nèi)。因此,對于一組符合正態(tài)分布的數(shù)據(jù),如果某個值距離μ值超過三個標(biāo)準(zhǔn)差σ則可以判斷這個值屬于異常數(shù)據(jù)。

數(shù)據(jù)科學(xué)異常值檢測原理是什么?
  三、計算步驟
  μ值:μ是遵從正態(tài)分布的隨機(jī)變量的均值,由于前提是各種因素對結(jié)果的影響為相加,因此μ值的計算可以為樣本數(shù)據(jù)的算術(shù)平均值。
  標(biāo)準(zhǔn)差σ:所有數(shù)據(jù)減去其平均值的平方和,所得結(jié)果除以該組數(shù)之個數(shù)N(數(shù)據(jù)集為總體數(shù)據(jù)情況,一般用于大數(shù)據(jù)算法)或者個數(shù)N減1(數(shù)據(jù)集為樣本數(shù)據(jù)情況,認(rèn)為數(shù)據(jù)集不是總體數(shù)據(jù)而是總體數(shù)據(jù)的一部分,一般用于統(tǒng)計學(xué)),再把所得值開根號,所得之?dāng)?shù)就是這組數(shù)據(jù)的標(biāo)準(zhǔn)差。

數(shù)據(jù)科學(xué)異常值檢測原理是什么?  

判斷邏輯:計算μ+3σ,μ-3σ,當(dāng)單個數(shù)據(jù)大于μ+3σ或者小于μ-3σ時,認(rèn)為此數(shù)據(jù)為異常值,因為按照經(jīng)驗法則,此數(shù)據(jù)在數(shù)據(jù)集的99.7%范圍外。
首先理解數(shù)據(jù)科學(xué)異常值檢測原理,掌握計算步驟,最終實現(xiàn)對數(shù)據(jù)科學(xué)異常值檢測。

以上就是數(shù)據(jù)科學(xué)異常值檢測原理是什么的詳細(xì)內(nèi)容了,看完之后是否有所收獲呢?如果如果想了解更多,歡迎來億速云行業(yè)資訊!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI