溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

Hive如何分組取Top N

發(fā)布時(shí)間：2021-12-10 11:47:13 來源：億速云閱讀：448 作者：小新欄目：大數(shù)據(jù)

小編給大家分享一下Hive如何分組取Top N，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

Hive分組取Top N

Hive在0.11.0版本開始加入了row_number、rank、dense_rank分析函數(shù)，可以查詢分組排序后的top值

使用規(guī)則：

row_number() over ([partition col1] [order by col2] )

rank() over ( [partition col1] [order by col2] )

dense_rank() over ( [partition col1] [order by col2] )

它們都是根據(jù)col1字段分組，然后對col2字段進(jìn)行排序，對排序后的每行生成一個(gè)行號，這個(gè)行號從1開始遞增

col1、col2都可以是多個(gè)字段，用','分隔

區(qū)別

1）row_number：不管col2字段的值是否相等，行號一直遞增，比如：有兩條記錄的值相等，但一個(gè)是第一，一個(gè)是第二

2）rank：上下兩條記錄的col2相等時(shí)，記錄的行號是一樣的，但下一個(gè)col2值的行號遞增N（N是重復(fù)的次數(shù)），比如：有兩條并列第一，下一個(gè)是第三，沒有第二

3）dense_rank：上下兩條記錄的col2相等時(shí)，下一個(gè)col2值的行號遞增1，比如：有兩條并列第一，下一個(gè)是第二

row_number可以實(shí)現(xiàn)分頁查詢

實(shí)際操作

創(chuàng)建表

create table t(name string, sub string, score int) row format delimited fields terminated by '\t';

數(shù)據(jù)在附件的a.txt里

a    chinese    98
a    english    90
d    chinese    88
c    english    82
c    math    98
b    math    89
b    chinese    79
z    english    90
z    math    89
z    chinese    80
e    math    99
e    english    87
d    english    90

加載數(shù)據(jù)
load data local inpath '/home/hadoop/hive-example/a.txt' into table tb4;

分組排序

--row_number
select *, row_number() over (partition by sub order by score) as od from t; 

--rank
select *, rank() over (partition by sub order by score) as od from t; 

--dense_ran
select *, dense_rank() over (partition by sub order by score desc) from t;

業(yè)務(wù)實(shí)例

--統(tǒng)計(jì)每個(gè)學(xué)科的前三名
select * from (select *, row_number() over (partition by sub order by score desc) as od from t ) t where od<=3;

--語文成績是80分的排名是多少
select od from (select *, row_number() over (partition by sub order by score desc) as od from t ) t where sub='chinese' and score=80;

--分頁查詢
select * from (select *, row_number() over () as rn from t) t1 where rn between 1 and 5;

以上是“Hive如何分組取Top N”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學(xué)習(xí)更多知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Hadoop技術(shù)在商業(yè)智能BI中的應(yīng)用分析
下一篇新聞：
hadoop日志級別的調(diào)制方法是什么

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<li id="ondcc"></li>

<strong id="ondcc"><th id="ondcc"></th></strong>

<table id="ondcc"><legend id="ondcc"><big id="ondcc"></big></legend></table>