溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

R語言如何實現(xiàn)分層抽樣Stratified

發(fā)布時間:2021-11-15 18:17:57 來源:億速云 閱讀:1059 作者:柒染 欄目:云計算

R語言如何實現(xiàn)分層抽樣Stratified ,針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

1.觀察數(shù)據(jù)集

head(iris)

R語言如何實現(xiàn)分層抽樣Stratified
選取數(shù)據(jù)集中前6個數(shù)據(jù),我們可以看出iris數(shù)據(jù)集一共有5個字段。

dim(iris)

R語言如何實現(xiàn)分層抽樣Stratified
iris數(shù)據(jù)集一共有150條數(shù)據(jù),5個字段

summary(iris)

R語言如何實現(xiàn)分層抽樣Stratified
觀察各個變量的內(nèi)容,可以看出前四個變量(Sepal.Length Sepal.Width Petal.Length Petal.Width)都是定量變量,而最后一個(Species)是定性變量,我們將依據(jù)最后一個變量作為分層抽樣的依據(jù)。

library(sampling)

載入分層抽樣的包sampling

n=round(3/5*nrow(iris)/3)

計算每一個種類的抽樣數(shù)目。這里我們按照每種“Species”抽取3/5個樣本進行抽樣。

sub_train=strata(iris,stratanames=("Species"),size=rep(n,3),method="srswor")head(sub_train)

stratanames參數(shù)是抽樣依據(jù)的變量,size參數(shù)是每個種類抽樣的數(shù)目,這里我們用上一步計算出來的n作為抽樣數(shù)目,method是抽樣方法,我們選擇srswor。

data_train=iris[sub_train$ID_unit,] data_test=iris[-sub_train$ID_unit,]

將抽樣結(jié)果分別定義為訓(xùn)練集(data_train)和測試集(data_test)。

dim(data_train); dim(data_test)

R語言如何實現(xiàn)分層抽樣Stratified
觀察訓(xùn)練集和測試集的字段和數(shù)據(jù)數(shù)目。符合我們的抽樣預(yù)期。

head(data_train);head(data_test)

R語言如何實現(xiàn)分層抽樣Stratified
觀察訓(xùn)練集和測試集的前幾條數(shù)據(jù)。

data_train;data_test

查看總的抽樣結(jié)果,這里數(shù)據(jù)量太大不再給出。

write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv")

保存數(shù)據(jù)集

關(guān)于 R語言如何實現(xiàn)分層抽樣Stratified 問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI