溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數(shù)據(jù)預處理

發(fā)布時間:2020-07-10 16:18:58 來源:網(wǎng)絡 閱讀:1482 作者:necther 欄目:大數(shù)據(jù)

各種數(shù)據(jù)分析技術的對象是數(shù)據(jù)源中的數(shù)據(jù)
數(shù)據(jù)源中的數(shù)據(jù)可能不完整(如某些屬性的值不確定或空缺)、含噪聲和不一致(如同一個屬性在不同表中的名稱不同) 、量綱不同
如果直接在這些未經(jīng)處理的數(shù)據(jù)上進行分析,結果不一定準確,效率也可能較低
需要使用清理、集成、變換、歸約等預處理方法改善數(shù)據(jù)質量,從而提高數(shù)據(jù)分析的效率與質量
主要介紹數(shù)據(jù)清理、集成、變換、規(guī)約等預處理技術

數(shù)據(jù)清理用于消除噪聲、數(shù)據(jù)不一致及數(shù)據(jù)不完整
噪聲可以通過平滑、識別孤立點等方法進行消除
分箱技術:將數(shù)據(jù)排序,根據(jù)等深或等寬分布規(guī)則將數(shù)據(jù)分布到不同箱中,將同一箱中的數(shù)據(jù)用用該箱中數(shù)據(jù)的平均值或中值、邊界值替換(平均值平滑、中值平滑、邊界平滑)
設某屬性的值為18,12,3,9,7,6,15,21,16,采用分箱技術平滑數(shù)據(jù)消除噪聲。分布規(guī)則為等深、深度為3,平滑規(guī)則為平均值平滑
首先,將屬性的值排序為3, 6, 7, 9, 12, 15, 16, 18, 21
數(shù)據(jù)預處理
數(shù)據(jù)不完整可以使用下列方法消除:
1)使用一個全局常量填充
2)使用屬性平均值填充
3)使用相同類的屬性平均值填充
4)使用最可能的值填充 需要采用預測算法,預測給定樣本的最可能的值并填充

數(shù)據(jù)不一致可以通過元數(shù)據(jù)消除(描述數(shù)據(jù)的數(shù)據(jù))

數(shù)據(jù)集成

數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中
這些數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件
在數(shù)據(jù)集成時,需要消除冗余——能夠由另外的屬性“導出”、命名的不一致的屬性
冗余可以通過相關分析進行檢測
屬性A、B之間的相關性計算:
數(shù)據(jù)預處理
rA,B>0,A與B正相關,A的值隨著B的值的增加而增加
rA,B<0,A與B負相關,A的值隨著B的值的增加而減少
rA,B=0,A與B獨立。因此,|rA,B|很大時,A與B可以去除一個

數(shù)據(jù)變換
將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如-1.0到1.0或0.0到1.0
最小-最大規(guī)格化:
[minA,maxA]為數(shù)值屬性A規(guī)格化前的取值區(qū)間
[new minA,new maxA] 為A規(guī)格化后的取值區(qū)間,最小-最大規(guī)格化根據(jù)下式將A的值v規(guī)格化為值v’
數(shù)據(jù)預處理
采用最小-最大規(guī)格化方法將[-100,100]中的66規(guī)格化到區(qū)間[0,1]
數(shù)據(jù)預處理

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。

AI