溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

MySQL中distinct和group?by去重效率區(qū)別是什么

發(fā)布時間:2023-03-09 14:30:23 來源:億速云 閱讀:84 作者:iii 欄目:開發(fā)技術(shù)

本篇內(nèi)容介紹了“MySQL中distinct和group by去重效率區(qū)別是什么”的有關(guān)知識,在實(shí)際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

一、distinct

distinct的作用

在mysql中,distinct關(guān)鍵字的主要作用就是對數(shù)據(jù)庫表中一個或者多個字段重復(fù)的數(shù)據(jù)進(jìn)行過濾,只返回其中的一條數(shù)據(jù)給用戶,distinct只可以在select中使用

distinct的原理

distinct進(jìn)行去重的主要原理是通過先對要進(jìn)行去重的數(shù)據(jù)進(jìn)行分組操作,然后從分組后的每組數(shù)據(jù)中去一條返回給客戶端,在這個分組的過程可能會出現(xiàn)兩種不同的情況:

distinct 依賴的字段全部包含索引:

該情況mysql直接通過操作索引對滿足條件的數(shù)據(jù)進(jìn)行分組,然后從分組后的每組數(shù)據(jù)中去一條數(shù)據(jù)。

distinct 依賴的字段未全部包含索引:

該情況由于索引不能滿足整個去重分組的過程,所以需要用到臨時表,mysql首先需要將滿足條件的數(shù)據(jù)放到臨時表中,然后在臨時表中對該部分?jǐn)?shù)據(jù)進(jìn)行分組,然后從臨時表中每個分組的數(shù)據(jù)中去一條數(shù)據(jù),在臨時表中進(jìn)行分組的過程中不會對數(shù)據(jù)進(jìn)行排序。

distinct的語法:

select distinct expression[,expression…] from tables [where conditions];

在使用distinct的過程中主要注意一下幾點(diǎn):

在對字段進(jìn)行去重的時候,要保證distinct在所有字段的最前面

如果distinct關(guān)鍵字后面有多個字段時,則會對多個字段進(jìn)行組合去重,只有多個字段組合起來的值是相等的才會被去重

二、group by

groupby在Mysql8.0之前會進(jìn)行隱式排序,導(dǎo)致觸發(fā)filesort,sql執(zhí)行效率低下,Mysql8.0開始,Mysql就刪除了隱式排序

隱式排序

對于隱式排序,我們可以參考Mysql官方的解釋:

MySQL :: MySQL 5.7 Reference Manual :: 8.2.1.14 ORDER BY Optimization

GROUP BY implicitly sorts by default (that is, in the absence of ASC
or DESC designators for GROUP BY columns). However, relying on
implicit GROUP BY sorting (that is, sorting in the absence of ASC or
DESC designators) or explicit sorting for GROUP BY (that is, by using
explicit ASC or DESC designators for GROUP BY columns) is deprecated.
To produce a given sort order, provide an ORDER BY clause.

大致解釋一下:

GROUP BY 默認(rèn)隱式排序(指在 GROUP BY 列沒有 ASC 或 DESC 指示符的情況下也會進(jìn)行排序)。然而,GROUPBY進(jìn)行顯式或隱式排序已經(jīng)過時(deprecated)了,要生成給定的排序順序,請?zhí)峁?ORDER BY 子句。

所以,在Mysql8.0之前,Group by會默認(rèn)根據(jù)作用字段(Groupby的后接字段)對結(jié)果進(jìn)行排序。在能利用索引的情況下,Group by不需要額外進(jìn)行排序操作;但當(dāng)無法利用索引排序時,Mysql優(yōu)化器就不得不選擇通過使用臨時表然后再排序的方式來實(shí)現(xiàn)GROUPBY了。且當(dāng)結(jié)果集的大小超出系統(tǒng)設(shè)置臨時表大小時,Mysql會將臨時表數(shù)據(jù)copy到磁盤上面再進(jìn)行操作,語句的執(zhí)行效率會變得極低。這也是Mysql選擇將此操作(隱式排序)棄用的原因。

基于上述原因,Mysql在8.0時,對此進(jìn)行了優(yōu)化更新:

MySQL :: MySQL 8.0 Reference Manual :: 8.2.1.16 ORDER BY Optimization

Previously (MySQL 5.7 and lower), GROUP BY sorted implicitly under
certain conditions. In MySQL 8.0, that no longer occurs, so specifying
ORDER BY NULL at the end to suppress implicit sorting (as was done
previously) is no longer necessary. However, query results may differ
from previous MySQL versions. To produce a given sort order, provide
an ORDER BY claus

大致解釋一下:

從前(Mysql5.7版本之前),Group by會根據(jù)確定的條件進(jìn)行隱式排序。在mysql 8.0中,已經(jīng)移除了這個功能,所以不再需要通過添加order by null 來禁止隱式排序了,但是,查詢結(jié)果可能與以前的 MySQL 版本不同。要生成給定順序的結(jié)果,請按通過ORDER BY指定需要進(jìn)行排序的字段。

三、distinct 和 group by 比較

在語義相同,有索引的情況下:

group by和distinct都能使用索引,效率相同。因?yàn)間roupby和distinct近乎等價,distinct可以被看做是特殊的group by。

在語義相同,無索引的情況下:

distinct效率高于group by。原因是distinct 和 group by都會進(jìn)行分組操作,但group
by在Mysql8.0之前會進(jìn)行隱式排序,導(dǎo)致觸發(fā)filesort,sql執(zhí)行效率低下。
但從Mysql8.0開始,Mysql就刪除了隱式排序,所以,此時在語義相同,無索引的情況下,groupby和distinct的執(zhí)行效率也是近乎等價的。

推薦group by的原因:

group by語義更為清晰 group by可對數(shù)據(jù)進(jìn)行更為復(fù)雜的一些處理 相比于distinct來說,group by的語義明確。且由于distinct關(guān)鍵字會對所有字段生效,在進(jìn)行復(fù)合業(yè)務(wù)處理時,group by的使用靈活性更高,groupby能根據(jù)分組情況,對數(shù)據(jù)進(jìn)行更為復(fù)雜的處理,例如通過having對數(shù)據(jù)進(jìn)行過濾,或通過聚合函數(shù)對數(shù)據(jù)進(jìn)行運(yùn)算。

distinct 主要是對數(shù)據(jù)兩兩進(jìn)行比較,需要遍歷整個表

group by 是在查詢時先把數(shù)據(jù)按照分組字段分組出來再查詢,當(dāng)數(shù)據(jù)量較大時,group by 速度要優(yōu)于 distinct

“MySQL中distinct和group by去重效率區(qū)別是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI