R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

發(fā)布時(shí)間：2021-11-22 16:07:02 來(lái)源：億速云閱讀：489 作者：柒染欄目：大數(shù)據(jù)

這篇文章將為大家詳細(xì)講解有關(guān)R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序，文章內(nèi)容質(zhì)量較高，因此小編分享給大家做個(gè)參考，希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

實(shí)例操練

這個(gè)例子使用的數(shù)據(jù)集為tidyverse包自帶的數(shù)據(jù)集，大家可以使用?gss_cat查看相關(guān)變量，這兒不再贅述。

在數(shù)據(jù)可視化過(guò)程中改變因子順序是一個(gè)經(jīng)常性的操作，比如我們想看看不同religions的average number of hours spent watching TV per day有什么不同，我們可以用以下代碼：

relig_summary <- gss_cat %>%   group_by(relig) %>%   summarise(     age = mean(age, na.rm = TRUE),     tvhours = mean(tvhours, na.rm = TRUE),     n = n()   )  ggplot(relig_summary, aes(tvhours, relig)) + geom_point()

運(yùn)行代碼得到輸出的點(diǎn)圖如下：

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

上面的這個(gè)點(diǎn)圖其實(shí)很不好看，我們可能會(huì)覺(jué)得能不能把religions的順序變一變，讓有最小tvhours的religion在y軸的最下面，有最大tvhours的在最上面。

怎么做呢，需要用到fct_reorder()方法，這個(gè)方法取2個(gè)參數(shù)：

第一個(gè)就是你想改變順序的因子，本例中：religions
第二個(gè)，改變順序的參照物，本例中：tvhours

代碼如下：

ggplot(relig_summary, aes(tvhours, fct_reorder(relig, tvhours))) +   geom_point()

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

可以看到，改變了religions的順序后這個(gè)圖就更加清晰明白了。

再看一個(gè)例子：

rincome_summary <- gss_cat %>%   group_by(rincome) %>%   summarise(     age = mean(age, na.rm = TRUE),     tvhours = mean(tvhours, na.rm = TRUE),     n = n()   )  ggplot(rincome_summary, aes(age, fct_reorder(rincome, age))) + geom_point()

上面的代碼，可以畫(huà)出按年齡排序后不同rincome和age的關(guān)系：

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

但是，問(wèn)題出在按年齡排序后我們的收入(y軸)顯得很亂，所以這個(gè)方法并不好，考慮到收入本來(lái)就是有順序的，所以好的處理方法為保留收入的原始順序，于是我們寫(xiě)出了如下代碼：

rincome_summary <- gss_cat %>%   group_by(rincome) %>%   summarise(     age = mean(age, na.rm = TRUE),     tvhours = mean(tvhours, na.rm = TRUE),     n = n()   )  ggplot(rincome_summary, aes(age, rincome)) + geom_point()

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

這次再看我們的圖，雖然其他的收入levels都排的挺好，但是我們不希望“Not applicable”排在第一。這個(gè)時(shí)候我們可以用fct_relevel()，它也有2個(gè)參數(shù)：

需要排序的因子，本例中：rincome
需要放在最前面的levels，本例中：Not applicable

代碼如下：

ggplot(rincome_summary, aes(age, fct_relevel(rincome, "Not applicable"))) +   geom_point()

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

這一下，我們的圖形就比較滿意了。

再看一個(gè)例子：線圖的顏色控制：

by_age <- gss_cat %>%   filter(!is.na(age)) %>%   count(age, marital) %>%   group_by(age) %>%   mutate(prop = n / sum(n))  ggplot(by_age, aes(age, prop, colour = marital)) +   geom_line(na.rm = TRUE)  ggplot(by_age, aes(age, prop, colour = fct_reorder2(marital, age, prop))) +   geom_line() +   labs(colour = "marital")

上面的代碼畫(huà)的是不同的年齡中婚姻狀況的比例變化：

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

我們通過(guò)fct_reorder2實(shí)現(xiàn)了圖例和x變量最大時(shí)y的值的順序一致，可以更加明晰。

最后再看一個(gè)柱狀圖調(diào)整因子順序的例子

下面的代碼可以，正序逆序改變x軸標(biāo)簽：

gss_cat %>% 
  mutate(marital = marital %>% fct_infreq() ) %>% 
  ggplot(aes(marital)) + 
    geom_bar() 
 
gss_cat %>% 
  mutate(marital = marital %>% fct_infreq() %>% fct_rev()) %>% 
  ggplot(aes(marital)) + 
    geom_bar()

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

大家可以在自己電腦上運(yùn)行試試，關(guān)鍵就在于fct_rev()。

今天通過(guò)3個(gè)例子給大家介紹了可視化中因子順序的改變，感謝大家耐心看完。發(fā)表這些東西的主要目的就是督促自己，希望大家關(guān)注評(píng)論指出不足，一起進(jìn)步。

關(guān)于R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

R語(yǔ)言中如何在數(shù)據(jù)可視化過(guò)程中調(diào)整因子順序

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽