溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

hive中order by與distribute by的區(qū)別和聯(lián)系是什么

發(fā)布時間：2021-12-21 17:36:58 來源：億速云閱讀：221 作者：iii 欄目：開發(fā)技術

本篇內(nèi)容主要講解“hive中order by與distribute by的區(qū)別和聯(lián)系是什么”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“hive中order by與distribute by的區(qū)別和聯(lián)系是什么”吧!

order by

order by 會對數(shù)據(jù)進行全局排序,和oracle和mysql等數(shù)據(jù)庫中的order by 效果一樣，它只在一個reduce中進行所以數(shù)據(jù)量特別大的時候效率非常低。

而且當設置：set hive.mapred.mode=strict的時候不指定limit，執(zhí)行select會報錯，如下：

LIMIT must also be specified。

sort by

sort by 是單獨在各自的reduce中進行排序，所以并不能保證全局有序，一般和distribute by 一起執(zhí)行，而且distribute by 要寫在sort by前面。

如果mapred.reduce.tasks=1和order by效果一樣，如果大于1會分成幾個文件輸出每個文件會按照指定的字段排序，而不保證全局有序。

sort by 不受 hive.mapred.mode 是否為strict ,nostrict 的影響。

distribute by

DISTRIBUTE BY 控制map 中的輸出在 reducer 中是如何進行劃分的。使用DISTRIBUTE BY 可以保證相同KEY的記錄被劃分到一個Reduce 中。

cluster by

distribute by 和 sort by 合用就相當于cluster by，但是cluster by 不能指定排序為asc或 desc 的規(guī)則，只能是升序排列。

到此，相信大家對“hive中order by與distribute by的區(qū)別和聯(lián)系是什么”有了更深的了解，不妨來實際操作一番吧！這里是億速云網(wǎng)站，更多相關內(nèi)容可以進入相關頻道進行查詢，關注我們，繼續(xù)學習！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權內(nèi)容。

上一篇新聞：
Skywalking、SpringCloudGateway以及SpringWebFlux該怎么理解
下一篇新聞：
count（*）、count（1）和count（列名）的區(qū)別是什么

猜你喜歡

AI
助
手

產(chǎn)品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網(wǎng)站二維碼

<li id="jd9mg"></li>