您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關(guān)mysql如何去除重復(fù)項(xiàng)的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。
具體如下:
說(shuō)到這個(gè)去重,腦仁不禁得一疼,尤其是出具量比較大的時(shí)候。畢竟咱不是專業(yè)的DB,所以嘞,只能自己弄一下適合自己去重方法了。
首先按照常規(guī)首段,使用having函數(shù)檢查重復(fù)項(xiàng),完事一個(gè)一個(gè)的刪除。不要問(wèn)我having檢測(cè)重復(fù)項(xiàng)的sql咋寫,你懂得哈。。。這個(gè)在只有幾條重復(fù)的時(shí)候還可以。要是幾千上萬(wàn)條不同數(shù)據(jù)重復(fù),那咋辦。。。
完事呢,咱就考慮了,用having函數(shù)查詢的時(shí)候,原始sql如下:
select `name`,count(*) as count from sentence group by `name` having count>1
大家可以運(yùn)行感覺(jué)下,在五百萬(wàn)左右的數(shù)據(jù)時(shí),那速度,麻油。。。
但是嘞,咱在不考慮優(yōu)化它的運(yùn)行速度的前提下,來(lái)考慮使用這個(gè)語(yǔ)句來(lái)使我們?nèi)コ龜?shù)組中的重復(fù)項(xiàng)。首先,我們要知道,我們刪除重復(fù)數(shù)據(jù)的時(shí)候需要使用的數(shù)據(jù)有哪些。id是肯定的,再來(lái)呢,篩選的條件是吧。所以嘞,上面的sql查詢出來(lái)的數(shù)據(jù),缺少了啥,id。。。那我們加上這個(gè)字段查詢下試試哈:
select id,`name`,count(*) as count from sentence group by `name` having count>1
結(jié)果呢,就會(huì)顯示出來(lái)id,name,count這三個(gè)字段。具體效果大家可以自己運(yùn)行看下。根據(jù)這些數(shù)據(jù)咱們就可以進(jìn)行去除重復(fù)項(xiàng)的操作了。
具體的sql設(shè)計(jì)就是刪除id不是咱們查詢出來(lái)的id,但是name值是咱們查詢出來(lái)的值,因?yàn)樵蹅兊臄?shù)據(jù)不是一條,所以得經(jīng)過(guò)程序處理,把所有的id用逗號(hào)拼接起來(lái),name值用引號(hào)和逗號(hào)處理下,完事就可以進(jìn)行使用了,示例呢就在下方:
delete from sentence where id not in(1,2,3) and name in('a','b','c')
如果數(shù)據(jù)過(guò)多的話,咱們可以寫成腳本,完事再進(jìn)行分批次操作。嘿嘿,到了這里,咱們就可以進(jìn)行去除重復(fù)項(xiàng)的操作了,但是這個(gè)速度么,始終是個(gè)困擾。接下來(lái)咱們就要考慮如何來(lái)優(yōu)化這個(gè)sql,讓它的速度上去,就算是大功告成了。
既然是提升咱們sql的運(yùn)行速度,按照常理來(lái)講,首先應(yīng)該想到的那就是索引。好唄,廢話不多說(shuō),咱們先建立索引。但是給那個(gè)字段建立所以呢???這又是個(gè)問(wèn)題了。
這個(gè)原則上是在你name字段可以加以區(qū)分的字段上建立的。比如,我的name字段里面儲(chǔ)存的是一條條的品牌名稱,然后呢,我有一個(gè)industry字段是來(lái)存儲(chǔ)每個(gè)品牌的行業(yè)的,所以我就在我的industry字段上建立了索引。當(dāng)然,還有更加合適的,這個(gè)就看大家咋考慮了。廢話不多說(shuō),咱直接來(lái)看看我們優(yōu)化后的sql:
select id,`name`,count(*) as count from sentence where industry = '飲品' group by `name` having count>1
運(yùn)行結(jié)果如下:
結(jié)果說(shuō)明啥,說(shuō)明咱們的索引有在使用哦。。。那速度,咱不說(shuō)各位看官應(yīng)該也了解。完事咱們就可以再用程序把所有的id用逗號(hào)拼接起來(lái),name值用引號(hào)和逗號(hào)處理下,完事就可以進(jìn)行那個(gè)去除重復(fù)項(xiàng)的大業(yè)了。效率明顯上升啊。。。
不過(guò)有的看官可能用的條件里面含有l(wèi)ike等會(huì)使索引失效的條件,那咱們還可以,把數(shù)據(jù)簡(jiǎn)單分類,完事分別檢測(cè)每個(gè)分類的數(shù)據(jù),全部查詢出來(lái)后,可以使用程序來(lái)檢查重復(fù)項(xiàng),并且取出刪除所需要的數(shù)據(jù)。
附:mysql rand查詢優(yōu)化&隨機(jī)查詢優(yōu)化
說(shuō)起這個(gè)隨機(jī)查詢,大家都知道使用rand()函數(shù),但是當(dāng)數(shù)據(jù)量達(dá)到一定程度的時(shí)候,查詢效率就可想而知了。所以呢?我們不妨考慮下優(yōu)化這個(gè)查詢方案。
我的優(yōu)化方式為,通過(guò)程序來(lái)隨機(jī),再配合limit來(lái)取值。咱們記錄下大概思路哈。
首先查詢出符合條件的數(shù)據(jù)條數(shù),之后用PHP的rand函數(shù)來(lái)在這個(gè)數(shù)值范圍內(nèi)隨機(jī)取值,之后直接查詢就可以。
示例sql:
select count(*) from test where $where;
(計(jì)算所需要的數(shù)據(jù)的總條數(shù))
$offset = rand(0,$count)
select * from test where $where limit $offset,1;
(查詢出所需數(shù)據(jù))
大家可以動(dòng)手試試。五百萬(wàn)左右的數(shù)據(jù)情況下,查詢速度較之mysql的rand函數(shù)查詢方式快了最少十倍。
感謝各位的閱讀!關(guān)于“mysql如何去除重復(fù)項(xiàng)”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。