溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何生成HASH索引防止數(shù)據(jù)重復(fù)插入

發(fā)布時(shí)間:2022-01-04 09:57:26 來源:億速云 閱讀:192 作者:柒染 欄目:大數(shù)據(jù)

如何生成HASH索引防止數(shù)據(jù)重復(fù)插入,相信很多沒有經(jīng)驗(yàn)的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。

任何數(shù)據(jù)庫都有唯一值,唯一索引這個(gè)概念,起到的作用是防止重復(fù)的值插入到數(shù)據(jù)庫中已經(jīng)設(shè)置的唯一索引字段的表中。為什么在MYSQL 中要提到這個(gè)事情,主要是由于MYSQL數(shù)據(jù)底層存儲(chǔ)架構(gòu)的設(shè)計(jì),以及分布式數(shù)據(jù)庫成型的要求,大部分時(shí)間我們會(huì)將主鍵設(shè)置為整型自增的模式,但這樣一來和ORACLE數(shù)據(jù)庫的設(shè)計(jì)不同,我們的主鍵一般和應(yīng)用系統(tǒng)要求的主鍵可能會(huì)有不一致的情況,也就是大部分在ORACLE 設(shè)計(jì)的主鍵不是自增的,并且一般也不是整型,而MYSQL 在這方面的不同會(huì)對已經(jīng)使用ORACLE 設(shè)計(jì)表習(xí)慣的開發(fā)人員造成一定的困擾
所以既要滿足MYSQL的底層數(shù)據(jù)存儲(chǔ)優(yōu)化的需求,又要找出一套能適應(yīng)ORACLE程序開發(fā)人員思路的MYSQL的表的設(shè)計(jì)方法,則是一個(gè)擺在目前的MYSQL 數(shù)據(jù)庫設(shè)計(jì)的一個(gè)重要問題。

例如:我們有一張表,其中id是自增的并且和業(yè)務(wù)沒有任何關(guān)系,而這張表如果需要一個(gè)唯一值來確認(rèn)每行數(shù)據(jù)的唯一性,則可以采用數(shù)據(jù)摘要算法,來在數(shù)據(jù)庫的層面解決某些唯一值生成的問題。

如何生成HASH索引防止數(shù)據(jù)重復(fù)插入

這里可以利用的算法很多,如CRC32 , MD5 ,SHA1 等,他們都能根據(jù)輸入的數(shù)據(jù),進(jìn)行計(jì)算后,產(chǎn)生一個(gè)在一定范圍唯一的值,通過這個(gè)唯一值來鑒定此行數(shù)據(jù)的唯一性。

這里的算法有幾種可以選擇,例如 CRC32 這個(gè)算法一般是使用在通訊的數(shù)據(jù)校驗(yàn)完整性中產(chǎn)生一個(gè)10位的唯一值,MD5 算法是一種信息摘要的算法,它產(chǎn)生一個(gè)32位十六進(jìn)制數(shù),在互聯(lián)網(wǎng)中傳輸大型文件,都是要靠MD5來計(jì)算驗(yàn)證碼,保證數(shù)據(jù)傳輸?shù)耐暾院驼_性。SHA1 是由美國制定的一套密碼算法,通過它來進(jìn)行數(shù)據(jù)密碼算法,SHA1,會(huì)產(chǎn)生一個(gè)十六位40位的密碼。

我們可以根據(jù)我們的需求來進(jìn)行相關(guān)算法的使用,來判定我們一行數(shù)據(jù)的唯一性。

這里做測試建立了一些唯一索引,使用不同的算法生成唯一值。

如何生成HASH索引防止數(shù)據(jù)重復(fù)插入

們已經(jīng)有了相關(guān)的數(shù)據(jù),我們在插入一個(gè)相同的數(shù)據(jù)

接報(bào)錯(cuò),當(dāng)然它一定應(yīng)該報(bào)錯(cuò)的。

如何生成HASH索引防止數(shù)據(jù)重復(fù)插入

可能有人馬上問,這解決了什么問題,我把那堆字段建立一個(gè)聯(lián)合的唯一索引不就完了,也一樣。

真是單純,我至少可以說出我的方法比你上面好的 4種優(yōu)點(diǎn)。其實(shí)一種就夠了,我的索引比你小。

如果你回答,這也算一個(gè)優(yōu)點(diǎn),大點(diǎn)會(huì)怎樣,我只能又笑了

同時(shí)從索引B+樹的存儲(chǔ)方式和應(yīng)用程序?qū)?shù)據(jù)庫每條記錄唯一的要求,這樣做都有有好處的。

OK 這樣的方法不光可以在MYSQL上使用,還可以使用在各種數(shù)據(jù)庫中,通過這樣的方法可以加速數(shù)據(jù)的提取,并且快速的在數(shù)據(jù)庫表中生成一道完整的防御重復(fù)記錄插入的方案。當(dāng)然也有缺點(diǎn)

當(dāng)你的數(shù)據(jù)插入量較多,則數(shù)據(jù)轉(zhuǎn)換成“特殊值”的方法可能是一個(gè)產(chǎn)生插入數(shù)據(jù)速度的一個(gè)瓶頸,如果數(shù)據(jù)量插入的不是很大的情況下并且對數(shù)據(jù)的唯一性有嚴(yán)格的要求,則使用MD5 則是比較好的方法,而如果僅僅是為了查詢提速,則可以使用CRC32的方法,雖然數(shù)據(jù)量達(dá)到千萬級可能有“撞庫” 的可能,但可以抵消多字段聯(lián)合索引帶來的性能問題,又何樂不為。 

他的另一個(gè)致命缺點(diǎn)呢?這里就不在提及了。

看完上述內(nèi)容,你們掌握如何生成HASH索引防止數(shù)據(jù)重復(fù)插入的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI