溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

實現(xiàn)數(shù)據(jù)庫水平切分的兩個思路

發(fā)布時間：2020-10-04 19:21:28 來源：腳本之家閱讀：132 作者：CODETC 欄目：MySQL數(shù)據(jù)庫

引言

隨著互聯(lián)網(wǎng)應(yīng)用的廣泛普及，海量數(shù)據(jù)的存儲和訪問成為了系統(tǒng)設(shè)計的瓶頸問題。對于一個大型的互聯(lián)網(wǎng)應(yīng)用，每天幾十億的PV無疑對數(shù)據(jù)庫造成了相當(dāng)高的負(fù)載。對于系統(tǒng)的穩(wěn)定性和擴(kuò)展性造成了極大的問題。通過數(shù)據(jù)切分來提高網(wǎng)站性能，橫向擴(kuò)展數(shù)據(jù)層已經(jīng)成為架構(gòu)研發(fā)人員首選的方式。

水平切分?jǐn)?shù)據(jù)庫：可以降低單臺機(jī)器的負(fù)載，同時最大限度的降低了宕機(jī)造成的損失；
負(fù)載均衡策略：可以降低單臺機(jī)器的訪問負(fù)載，降低宕機(jī)的可能性；
集群方案：解決了數(shù)據(jù)庫宕機(jī)帶來的單點數(shù)據(jù)庫不能訪問的問題；
讀寫分離策略：最大限度了提高了應(yīng)用中讀取數(shù)據(jù)的速度和并發(fā)量；

為什么要數(shù)據(jù)切分

上面對什么是數(shù)據(jù)切分做了個概要的描述和解釋，讀者可能會疑問，為什么需要數(shù)據(jù)切分呢？像Oracle這樣成熟穩(wěn)定的數(shù)據(jù)庫，足以支撐海量數(shù)據(jù)的存儲與查詢了？為什么還需要數(shù)據(jù)切片呢？

的確，Oracle的DB確實很成熟很穩(wěn)定，但是高昂的使用費(fèi)用和高端的硬件支撐不是每一個公司能支付的起的。試想一下一年幾千萬的使用費(fèi)用和動輒上千萬元的小型機(jī)作為硬件支撐，這是一般公司能支付的起的嗎？即使就是能支付的起，假如有更好的方案，有更廉價且水平擴(kuò)展性能更好的方案，我們?yōu)槭裁床贿x擇呢？

我們知道每臺機(jī)器無論配置多么好它都有自身的物理上限，所以當(dāng)我們應(yīng)用已經(jīng)能觸及或遠(yuǎn)遠(yuǎn)超出單臺機(jī)器的某個上限的時候，我們惟有尋找別的機(jī)器的幫助或者繼續(xù)升級的我們的硬件，但常見的方案還是橫向擴(kuò)展，通過添加更多的機(jī)器來共同承擔(dān)壓力。我們還得考慮當(dāng)我們的業(yè)務(wù)邏輯不斷增長，我們的機(jī)器能不能通過線性增長就能滿足需求？Sharding可以輕松的將計算，存儲，I/O并行分發(fā)到多臺機(jī)器上，這樣可以充分利用多臺機(jī)器各種處理能力，同時可以避免單點失敗，提供系統(tǒng)的可用性，進(jìn)行很好的錯誤隔離。

綜合以上因素，數(shù)據(jù)切分是很有必要的。我們用免費(fèi)的MySQL和廉價的Server甚至是PC做集群，達(dá)到小型機(jī)+大型商業(yè)DB的效果，減少大量的資金投入，降低運(yùn)營成本，何樂而不為呢？

在大中型項目中，在數(shù)據(jù)庫設(shè)計的時候，考慮到數(shù)據(jù)庫最大承受數(shù)據(jù)量，通常會把數(shù)據(jù)庫或者數(shù)據(jù)表水平切分，以降低單個庫，單個表的壓力。這里介紹兩個項目中常用的數(shù)據(jù)表切分方法。當(dāng)然這些方法都是在程序中?使用一定的技巧來路由到具體的表的。首先我們要確認(rèn)根據(jù)什么來水平切分？在我們的系統(tǒng)（SNS）中，用戶的UID貫穿系統(tǒng)，唯一自增長，根據(jù)這個字段分表，再好不過。

方法一：使用MD5哈希

做法是對UID進(jìn)行md5加密，然后取前幾位（我們這里取前兩位），然后就可以將不同的UID哈希到不同的用戶表（user_xx）中了。

function getTable( $uid ){
 $ext = substr ( md5($uid) ,0 ,2 );
 return "user_".$ext;
}

通過這個技巧，我們可以將不同的UID分散到256中用戶表中，分別是user_00,user_01 ...... user_ff。因為UID是數(shù)字且遞增，根據(jù)md5的算法，可以將用戶數(shù)據(jù)幾乎很均勻的分別到不同的user表中。

但是這里有個問題是，如果我們的系統(tǒng)的用戶越來越多，勢必單張表的數(shù)據(jù)量越來越大，而且根據(jù)這種算法無法擴(kuò)展表，這又會回到文章開頭出現(xiàn)的問題了。

方法二：使用移位

具體方法是：

public function getTable( $uid ) {
 return "user_" . sprintf( "d", ($uid >> 20) );
}

這里，我們將uid向右移動20位，這樣我們就可以把大約前100萬的用戶數(shù)據(jù)放在第一個表user_0000,第二個100萬的用戶數(shù)據(jù)放在第二個表user_0001中，這樣一直下去，如果我們的用戶越來越多，直接添加用戶表就行了。由于我們保留的表后綴是四位，這里我們可以添加1萬張用戶表，即user_0000,user_0001 ...... user_9999。一萬張表，每張表100萬數(shù)據(jù)，我們可以存100億條用戶記錄。當(dāng)然，如果你的用戶數(shù)據(jù)比這還多，也不要緊，你只要改變保留表后綴來增加可以擴(kuò)展的表就行了，如如果有1000億條數(shù)據(jù)，每個表存100萬，那么你需要10萬張表，我們只要保留表后綴為6位即可。

上面的算法還可以寫的靈活點：

/**
 * 根據(jù)UID分表算法
 * @param int $uid //用戶ID
 * @param int $bit  //表后綴保留幾位
 * @param int $seed //向右移動位數(shù)
 */
function getTable( $uid , $bit , $seed ){
 return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );
}

小結(jié)

上面兩種方法，都要對我們當(dāng)前系統(tǒng)的用戶數(shù)據(jù)量做出可能最大的預(yù)估，并且對數(shù)據(jù)庫單個表的最大承受量做出預(yù)估。

比如第二種方案，如果我們預(yù)估我們系統(tǒng)的用戶是100億，單張表的最優(yōu)數(shù)據(jù)量是100萬，那么我們就需要將UID移動20來確保每個表是100萬的數(shù)據(jù)，保留用戶表（user_xxxx）四位來擴(kuò)展1萬張表。

又如第一種方案，每張表100萬，md5后取前兩位，就只能有256張表了，系統(tǒng)總數(shù)據(jù)庫就是：256*100萬；如果你系統(tǒng)的總數(shù)據(jù)量的比這還多，那你實現(xiàn)肯定要MD5取前三位或者四位甚至更多位了。

兩種方法都是將數(shù)據(jù)水平切分到不同的表中，相對第一種方法，第二種方法更具擴(kuò)展性。

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，謝謝大家對億速云的支持。如果你想了解更多相關(guān)內(nèi)容請查看下面相關(guān)鏈接

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Django使用AJAX調(diào)用自己寫的API接口的方法
下一篇新聞：
Java8 Comparator源碼演示及解析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼