您好,登錄后才能下訂單哦!
這篇文章主要介紹計(jì)算機(jī)中數(shù)據(jù)的預(yù)處理包括哪些內(nèi)容,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
數(shù)據(jù)的預(yù)處理內(nèi)容:1、數(shù)據(jù)審核,可以分為準(zhǔn)確性審核、適用性審核、及時(shí)性審核和一致性審核四個(gè)方面;2、數(shù)據(jù)篩選,對審核過程中發(fā)現(xiàn)的錯誤應(yīng)盡可能予以糾正;3、數(shù)據(jù)排序,按照一定順序?qū)?shù)據(jù)進(jìn)行排列。
本教程操作環(huán)境:windows7系統(tǒng)、Dell G3電腦。
數(shù)據(jù)預(yù)處理(data preprocessing)是指在主要的處理以前對數(shù)據(jù)進(jìn)行的一些處理。如對大部分地球物理面積性觀測數(shù)據(jù)在進(jìn)行轉(zhuǎn)換或增強(qiáng)處理之前,首先將不規(guī)則分布的測網(wǎng)經(jīng)過插值轉(zhuǎn)換為規(guī)則網(wǎng)的處理,以利于計(jì)算機(jī)的運(yùn)算。另外,對于一些剖面測量數(shù)據(jù),如地震資料預(yù)處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數(shù)據(jù)的預(yù)處理是指對所收集數(shù)據(jù)進(jìn)行分類或分組前所做的審核、篩選、排序等必要的處理。
預(yù)處理內(nèi)容
1、數(shù)據(jù)審核
從不同渠道取得的統(tǒng)計(jì)數(shù)據(jù),在審核的內(nèi)容和方法上有所不同。
對于原始數(shù)據(jù)應(yīng)主要從完整性和準(zhǔn)確性兩個(gè)方面去審核。完整性審核主要是檢查應(yīng)調(diào)查的單位或個(gè)體是否有遺漏,所有的調(diào)查項(xiàng)目或指標(biāo)是否填寫齊全。準(zhǔn)確性審核主要是包括兩個(gè)方面:一是檢查數(shù)據(jù)資料是否真實(shí)地反映了客觀實(shí)際情況,內(nèi)容是否符合實(shí)際;二是檢查數(shù)據(jù)是否有錯誤,計(jì)算是否正確等。審核數(shù)據(jù)準(zhǔn)確性的方法主要有邏輯檢查和計(jì)算檢查。邏輯檢查主要是審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項(xiàng)目或數(shù)字之間有無相互矛盾的現(xiàn)象,此方法主要適合對定性(品質(zhì))數(shù)據(jù)的審核。計(jì)算檢查是檢查調(diào)查表中的各項(xiàng)數(shù)據(jù)在計(jì)算結(jié)果和計(jì)算方法上有無錯誤,主要用于對定量(數(shù)值型)數(shù)據(jù)的審核。
對于通過其他渠道取得的二手資料,除了對其完整性和準(zhǔn)確性進(jìn)行審核外,還應(yīng)該著重審核數(shù)據(jù)的適用性和時(shí)效性。二手資料可以來自多種渠道,有些數(shù)據(jù)可能是為特定目的通過專門調(diào)查而獲得的,或者是已經(jīng)按照特定目的需要做了加工處理。對于使用者來說,首先應(yīng)該弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,還要對數(shù)據(jù)的時(shí)效性進(jìn)行審核,對于有些時(shí)效性較強(qiáng)的問題,如果取得的數(shù)據(jù)過于滯后,可能失去了研究的意義。一般來說,應(yīng)盡可能使用最新的統(tǒng)計(jì)數(shù)據(jù)。數(shù)據(jù)經(jīng)審核后,確認(rèn)適合于實(shí)際需要,才有必要做進(jìn)一步的加工整理。
數(shù)據(jù)審核的內(nèi)容主要包括以下四個(gè)方面:
準(zhǔn)確性審核。主要是從數(shù)據(jù)的真實(shí)性與精確性角度檢查資料,其審核的重點(diǎn)是檢查調(diào)查過程中所發(fā)生的誤差。
適用性審核。主要是根據(jù)數(shù)據(jù)的用途,檢查數(shù)據(jù)解釋說明問題的程度。具體包括數(shù)據(jù)與調(diào)查主題、與目標(biāo)總體的界定、與調(diào)查項(xiàng)目的解釋等是否匹配。
及時(shí)性審核。主要是檢查數(shù)據(jù)是否按照規(guī)定時(shí)間報(bào)送,如未按規(guī)定時(shí)間報(bào)送,就需要檢查未及時(shí)報(bào)送的原因。
一致性審核。主要是檢查數(shù)據(jù)在不同地區(qū)或國家、在不同的時(shí)間段是否具有可比性。
2、數(shù)據(jù)篩選
對審核過程中發(fā)現(xiàn)的錯誤應(yīng)盡可能予以糾正。調(diào)查結(jié)束后,當(dāng)數(shù)據(jù)發(fā)現(xiàn)的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時(shí),就需要對數(shù)據(jù)進(jìn)行篩選。數(shù)據(jù)篩選包括兩方面的內(nèi)容:一是將某些不符合要求的數(shù)據(jù)或有明顯錯誤地?cái)?shù)據(jù)予以剔除;二是將符合某種特定條件的數(shù)據(jù)篩選出來,對不符合特定條件的數(shù)據(jù)予以剔除。數(shù)據(jù)的篩選在市場調(diào)查、經(jīng)濟(jì)分析、管理決策中是十分重要的。
3、數(shù)據(jù)排序
數(shù)據(jù)排序是按照一定順序?qū)?shù)據(jù)排列,以便于研究者通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。除此之外,排序還有助于對數(shù)據(jù)檢查糾錯,為重新歸類或分組等提供依據(jù)。在某些場合,排序本身就是分析的目的之一。排序可借助于計(jì)算機(jī)很容易的完成。
對于分類數(shù)據(jù),如果是字母型數(shù)據(jù),排序有升序與降序之分,但習(xí)慣上升序使用得更為普遍,因?yàn)樯蚺c字母的自然排列相同;如果是漢字型數(shù)據(jù),排序方式有很多,比如按漢字的首位拼音字母排列,這與字母型數(shù)據(jù)的排序完全一樣,也可按筆畫排序,其中也有筆畫多少的升序降序之分。交替運(yùn)用不同方式排序,在漢字型數(shù)據(jù)的檢查糾錯過程中十分有用。
對于數(shù)值型數(shù)據(jù),排序只有兩種,即遞增和遞減。排序后的數(shù)據(jù)也稱為順序統(tǒng)計(jì)量。
以上是“計(jì)算機(jī)中數(shù)據(jù)的預(yù)處理包括哪些內(nèi)容”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。