怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

發(fā)布時(shí)間：2021-07-24 11:58:47 來(lái)源：億速云閱讀：249 作者：chen 欄目：大數(shù)據(jù)

這篇文章主要講解了“怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加”吧！

數(shù)據(jù)合并操作涉及以下幾個(gè)問(wèn)題：

橫向合并；

1. 是否需要匹配字段

1.1 匹配字段合并

1.1.1 主字段同名

1.1.2 主字段不同名

1.2 無(wú)需匹配字段合并

縱向合并：（情況比較簡(jiǎn)單，列字段數(shù)量相同，名稱相同）

因?yàn)榭v向合并情況比較簡(jiǎn)單，所以本篇講解也著重以橫向合并為主，按照以上幾個(gè)問(wèn)題，需要用到的函數(shù)列舉如下：

cbind rbind merge plyr::join tidyr:: inner_join/full_join/left_join/right_join

首先介紹base內(nèi)置的兩三個(gè)函數(shù)：

cbind rbind merge

###橫向追加（無(wú)需匹配字段）

數(shù)據(jù)集構(gòu)造如下：

ID<-c(1,2,3,4)

Name<-c("A","B","C","D")

Score<-c(60,70,80,90)

Sex<-c("M","F","M","M")

One<-data.frame(ID,Name)

Two<-data.frame(Score,Sex)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

合并：

Total<-cbind(One,Two)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

可以看到cbind函數(shù)橫向合并無(wú)需匹配主字段，僅僅是將兩個(gè)數(shù)據(jù)集橫向拼接在一起。

###縱向合并

構(gòu)造數(shù)據(jù)集：

ID<-c(1,2,3,4)

Name<-c("A","B","C","D")

Student1<-data.frame(ID,Name)

ID<-c(5,6,7,8)

Name<-c("E","F","G","H")

Student2<-data.frame(ID,Name)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

合并：

Total_student3<-rbind(Student1,Student2)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

以上通過(guò)rbind函數(shù)對(duì)Student1,Student2兩個(gè)數(shù)據(jù)集進(jìn)行縱向合并（也稱追加）。

merge函數(shù)：

merge函數(shù)主要針對(duì)橫向（列字段）合并，而且可以針對(duì)主字段（主鍵）進(jìn)行匹配，如果主字段名稱不同，還可以指定前后相匹配的主字段。

基本語(yǔ)法如下：

merge(x, y, by = , by.x = , by.y = , all = , all.x = , all.y = , sort = , suffixes = , incomparables = , ...)

具體參數(shù)解釋如下：

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

接下來(lái)按照名相同與不同分兩種情況介紹；

列名相同：

ID<-c(1,2,3,4)

name<-c("A","B","C","D")

score<-c(60,70,80,90)

student1<-data.frame(ID,name)

student2<-data.frame(ID,score)

total_student1<-merge(student1,student2,by="ID")

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

#以上兩個(gè)數(shù)據(jù)集有相同的列名（ID）時(shí)，by參數(shù)可以省略（by="ID"）

以上兩個(gè)數(shù)據(jù)集中，authors和books中有相同屬性的主字段（surname&name）但是主字段名稱不同，這里需要給merge函數(shù)指定匹配的主字段。

橫向合并的四種類型：

#inner（內(nèi)部鏈接）只合并交集

m1 <- merge(authors, books, by.x = "surname", by.y = "name")

#left join（左連接）

m2 <- merge(authors, books, by.x = "surname", by.y = "name",all.x=TRUE)

#right join（右連接）

m3 <- merge(authors, books, by.x = "surname", by.y = "name",all.y=TRUE)

#all_join（外連接）

m4 <- merge(authors, books, by.x = "surname", by.y = "name",all=TRUE)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

plyr::join函數(shù)

join函數(shù)源于plyr包（該包作者就是大名鼎鼎的Hadley Wickham，就是ggplot2的開(kāi)發(fā)者，當(dāng)然它開(kāi)發(fā)的包還有很多），使用前需要加載：

以下是該函數(shù)語(yǔ)法：

join(x, y, by = NULL, type = "left", match = "all")

當(dāng)兩個(gè)數(shù)據(jù)集主字段有相同名稱時(shí)，by參數(shù)可以省略（by="name"）,當(dāng)名稱不同時(shí)，需指定左右兩個(gè)數(shù)據(jù)集匹配的主字段名稱。

join(x,y,by=intersect("Name","name"),type = "left")

以下我只演示相同主字段名稱下的四種類型合并語(yǔ)句：

構(gòu)造待合并數(shù)據(jù)集:

x<-data.frame(name=c("John","Paul","George","Ringo","Stuart","Pete"),instrument=c("guitar","bass","guitar","drums","bass","drums"))

y<-data.frame(name=c("John","Paul","George","Ringo","Brian"),band=c("TRUE","TRUE","TRUE","TRUE","FALSE"))

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

#left_join

data1<-join(x,y,by="name",type = "left")

#right_join

data2<-join(x,y,by="name",type = "right")

#inner_join

data3<-join(x,y,by="name",type = "inner")

#full_join

data4<-join(x,y,by="name",type = "full")

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

合并函數(shù)與merge函數(shù)基本相同。

dplyr::inner_join/full_join/left_join/right_join

（告訴你一個(gè)不幸的消息，該包作者還是Hadley Wickham，沒(méi)辦法，一個(gè)贏者通吃的時(shí)代，誰(shuí)讓人家有才任性呢哈哈~_~）

dplyr的數(shù)據(jù)合并語(yǔ)句要比plyr還要精練：

x<-data.frame(Name=c("John","Paul","George","Ringo","Stuart","Pete"),instrument=c("guitar","bass","guitar","drums","bass","drums"))

y<-data.frame(name=c("John","Paul","George","Ringo","Brian"),band=c("TRUE","TRUE","TRUE","TRUE","FALSE"))

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

#(1)inner_join(x, y) ：只包含同時(shí)出現(xiàn)在x,y表中的行

data1<-inner_join(x,y,by=c("Name"="name"))

#(2)left_join(x, y) ：包含所有x中以及y中匹配的行

data2<-left_join(x,y,by=c("Name"="name"))

#(3)right_join(x, y,by=c("Name"="name")) ：包含所有y中以及x中匹配的行

data3<-right_join(x,y,by=c("Name"="name"))

#(4)full_join(x,y,by=c("Name"="name")) ：包含所以x、y中的行

data4<-full_join(x,y,by=c("Name"="name"))

#(5)semi_join(x, y) ：包含x中，在y中有匹配的行，結(jié)果為x的子集

data5<-semi_join(x,y,by=c("Name"="name"))

#(6)anti_join(x, y) ：包含x中，不匹配y的行，結(jié)果為x的子集，與semi_join相反

data6<-anti_join(x,y)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

以上連接類型中，前四個(gè)（內(nèi)連接、外連接、左連接、右連接）最為常用，大家可以將dplyr和plyr以及merge函數(shù)三種連接方式進(jìn)行對(duì)比記憶。

下面聊一列為啥要專門講一節(jié)數(shù)據(jù)連接方式：

因?yàn)椤?/p>

在excel中……

這種數(shù)據(jù)連接真的……真的……真的……太費(fèi)勁了

我所知道的連接方式——

第一：手動(dòng)復(fù)制黏貼；（大家不要隨便作死）

第二：最古老的Microsoft Query（藏在excel數(shù)據(jù)導(dǎo)入菜單的最底層，據(jù)說(shuō)微軟也不更新了，如果的excel是精簡(jiǎn)版的，可能都沒(méi)法調(diào)用，菜單特丑）

第三：數(shù)據(jù)透視表；Alt+D+P（為啥微軟要把調(diào)用數(shù)據(jù)透視表多表合并的菜單隱藏起來(lái)只能用快捷鍵，太煩人了）

第四：微軟的最新商務(wù)智能應(yīng)用——PowerBI(其中的PowerQuery、PowerPivot)

第五：第三方的效率插件（很多VBA大神寫過(guò)這些辦公插件，但是我就不愛(ài)用，多裝一個(gè)，Excel啟動(dòng)拖后兩秒鐘，時(shí)間就是金錢啊你說(shuō)是不）

以上四種方式（第一種除外），雖說(shuō)都可以完成數(shù)據(jù)合并操作，但是效率上不敢恭維，每次都得走一遍菜單流程。如果有點(diǎn)R語(yǔ)言基礎(chǔ)的同學(xué)，強(qiáng)烈建議將這些操作放在R中操作，數(shù)據(jù)導(dǎo)入導(dǎo)出、長(zhǎng)寬轉(zhuǎn)換、橫縱合并，只需修改一下代碼路徑、參數(shù)分分鐘搞定。

當(dāng)然對(duì)于有數(shù)據(jù)庫(kù)基礎(chǔ)的同學(xué)(相信大部分同學(xué)都有吧，應(yīng)該是大學(xué)本科的必修課)來(lái)講，寫幾個(gè)SQL也可以瞬間完成。

雖然已經(jīng)N多年沒(méi)有用過(guò)了，但是還是想在這里獻(xiàn)丑一下：

內(nèi)連接 inner join

語(yǔ)法：select * from x inner join y on x.Name =y.name

左連接 left join（左表中所有數(shù)據(jù)，右表中對(duì)應(yīng)數(shù)據(jù)）

語(yǔ)法：select * from x left join y on x.Name = y.name

右連接 right join（右表中所有數(shù)據(jù)，左表中對(duì)應(yīng)數(shù)據(jù)）

語(yǔ)法：select * from x right join y on x.Name = y.name

全連接 full join

語(yǔ)法：select * from x full join y on x.Name = y.name

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

我是一個(gè)比較懶、嫌麻煩但注重效率的人，很多關(guān)于數(shù)據(jù)處理上的需求，如果能用簡(jiǎn)單的方式解決（比如VBA、R或者效率函數(shù)）,我都不會(huì)去選擇安裝插件或者外部軟件，一方面太浪費(fèi)時(shí)間，操作麻煩；另一方面，使用插件大多需要用菜單點(diǎn)選，以后遇到同樣的需要還得從新走一遍流程，所以我更傾向用簡(jiǎn)單的可重復(fù)利用的代碼來(lái)解決。

簡(jiǎn)單、省事兒、快捷、可重復(fù)……

感謝各位的閱讀，以上就是“怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加”的內(nèi)容了，經(jīng)過(guò)本文的學(xué)習(xí)后，相信大家對(duì)怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加這一問(wèn)題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

向AI問(wèn)一下細(xì)節(jié)

怎么用R語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)合并與追加

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽