溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

發(fā)布時(shí)間:2021-10-22 09:49:26 來(lái)源:億速云 閱讀:131 作者:iii 欄目:數(shù)據(jù)庫(kù)

本篇內(nèi)容主要講解“分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么”吧!

兩階段提交(2PC)

兩階段提交協(xié)議主要有2種,一種是應(yīng)用層的TCC,比如阿里巴巴的seata就實(shí)現(xiàn)了TCC模式,這種模式的特點(diǎn)是每個(gè)服務(wù)都需要提供try/confirm/cancel這3個(gè)實(shí)現(xiàn),這3個(gè)實(shí)現(xiàn)需要在業(yè)務(wù)代碼中實(shí)現(xiàn),對(duì)業(yè)務(wù)侵入高。

今天我分享的是面向資源的2PC協(xié)議,最早由Jim  Gray提出,整個(gè)事務(wù)分為2個(gè)階段,prepare階段和commit階段,這2個(gè)階段由協(xié)調(diào)節(jié)點(diǎn)和DB資源管理器協(xié)作完成。

這里我們還是以經(jīng)典的電商系統(tǒng)為例,整個(gè)系統(tǒng)分為訂單、賬戶(hù)和庫(kù)存3個(gè)服務(wù),我們收到客戶(hù)的購(gòu)買(mǎi)請(qǐng)求后,協(xié)調(diào)節(jié)點(diǎn)需要協(xié)調(diào)訂單服務(wù)生成訂單,賬戶(hù)服務(wù)扣減商品款,庫(kù)存服務(wù)扣減商品庫(kù)存,假如這3個(gè)服務(wù)的數(shù)據(jù)庫(kù)在不同切片上,這個(gè)協(xié)調(diào)過(guò)程具體如下:

1.prepare階段

協(xié)調(diào)節(jié)點(diǎn)向所有服務(wù)發(fā)送prepare請(qǐng)求,每個(gè)服務(wù)收到prepare請(qǐng)求后會(huì)嘗試執(zhí)行本地事務(wù),但不會(huì)真正提交本地事務(wù)。這個(gè)嘗試執(zhí)行的過(guò)程會(huì)檢查到是否具備執(zhí)行事務(wù)的條件,比如資源是否被鎖定等,當(dāng)所有服務(wù)都嘗試執(zhí)行成功后會(huì)給協(xié)調(diào)節(jié)點(diǎn)返回一個(gè)yes,如下圖:

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

2.commit/rollback階段

如果prepare階段所有服務(wù)有返回了yes,那么協(xié)調(diào)節(jié)點(diǎn)就會(huì)通知各個(gè)服務(wù)執(zhí)行commit操作,這時(shí)各個(gè)服務(wù)就會(huì)真正的提交本地事務(wù)。如下圖:

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

如果prepare階段有服務(wù)返回了no,協(xié)調(diào)節(jié)點(diǎn)就需要通知所有服務(wù)進(jìn)行本地事務(wù)回滾。

2PC存在問(wèn)題

上面我們簡(jiǎn)單地分析了2PC協(xié)議的執(zhí)行過(guò)程,那么2PC有什么問(wèn)題呢?

1.性能問(wèn)題

本地事務(wù)在prepare階段鎖定資源,比如賬戶(hù)服務(wù)要扣減xiaoming這個(gè)賬戶(hù)的金額100元,那必須把xiaoming這個(gè)賬戶(hù)先鎖定。這樣如果有其他事務(wù)也要修改xiaoming這個(gè)賬戶(hù),就必須等待前面的事務(wù)完成。這樣就造成了延遲和性能下降。

2.協(xié)調(diào)節(jié)點(diǎn)單點(diǎn)故障

協(xié)調(diào)節(jié)點(diǎn)是單節(jié)點(diǎn)的,如果發(fā)生故障,整個(gè)事務(wù)會(huì)一直阻塞。比如第一個(gè)階段prepare成功了,但是第二個(gè)階段協(xié)調(diào)節(jié)點(diǎn)發(fā)出commit指令之前宕機(jī)了,所有服務(wù)的數(shù)據(jù)資源處于鎖定狀態(tài),后面的事務(wù)只能等待。

3.數(shù)據(jù)不一致

如果第一階段prepare成功了,但是第二階段commit的時(shí)候,如果協(xié)調(diào)節(jié)點(diǎn)通知庫(kù)存服務(wù)失敗了,這樣就相當(dāng)于生成了訂單,扣減了賬戶(hù),但是沒(méi)有扣減庫(kù)存。這導(dǎo)致了數(shù)據(jù)的不一致。

Percolator模型

主流的NewSQL數(shù)據(jù)庫(kù),比如TiDB,是用Percolator模型來(lái)解決的。如下官網(wǎng)鏈接:

https://pingcap.com/blog-cn/percolator-and-txn/

Percolator模型來(lái)自于Google論文:

《Large-scale Incremental Processing Using Distributed Transactions and Notifications》

原文可以看下面連接,網(wǎng)上也有好多翻譯版的:

https://www.cs.princeton.edu/courses/archive/fall10/cos597B/papers/percolator-osdi10.pdf

Percolator的前提是本地事務(wù)的數(shù)據(jù)庫(kù)支持多版本并發(fā)控制協(xié)議,也就是mvcc?,F(xiàn)在主流數(shù)據(jù)庫(kù)比如mysql、oracle都是支持的。

a)初始階段

還是看上面我們提到的經(jīng)典電商案例,初始階段,我們假設(shè)訂單數(shù)量是0,賬戶(hù)服務(wù)是1000,庫(kù)存服務(wù)是100,客戶(hù)下了1個(gè)訂單后,訂單服務(wù)增加1個(gè)訂單,賬戶(hù)服務(wù)扣除金額100,庫(kù)存服務(wù)扣除商品數(shù)量1。各個(gè)切片的初始數(shù)據(jù)如下表:

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

":"前面的是時(shí)間戳或者數(shù)據(jù)版本,后面是數(shù)據(jù)值。這3張表中,第一條記錄不保存真正的數(shù)據(jù),而是保存了指向真正數(shù)據(jù)的指針,比如訂單表中,6這個(gè)版本的數(shù)據(jù)指向了5個(gè)版本的數(shù)據(jù),訂單數(shù)量是0。

b)prepare階段

在prepare階段,協(xié)調(diào)節(jié)點(diǎn)向每個(gè)服務(wù)發(fā)送了prepare命令,這3張表分別進(jìn)入了prepare階段。在prepare階段,Percolator定義了主鎖的概念,每個(gè)分布式事務(wù)只能有一個(gè)服務(wù)獲得主鎖,比如本案例的訂單服務(wù),其他服務(wù)的鎖指向這個(gè)主鎖的指針,如下表:

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

prepare階段,每個(gè)服務(wù)會(huì)寫(xiě)日志,并且根據(jù)時(shí)間戳記錄事務(wù)的私有版本,這樣其他事務(wù)就不能操作這三條數(shù)據(jù)了。

c)commit階段

在commit階段,協(xié)調(diào)節(jié)點(diǎn)只需要跟訂單服務(wù)通信,因?yàn)橛唵畏?wù)擁有primary lock,也就是說(shuō)協(xié)調(diào)節(jié)點(diǎn)只跟擁有primary  lock的切片通信。這時(shí)數(shù)據(jù)如下表:

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

這時(shí)我們注意到除了order服務(wù)的鎖沒(méi)有了,而且增加了版本8指向版本7,說(shuō)明訂單服務(wù)已經(jīng)沒(méi)有私有版本了,但是賬戶(hù)服務(wù)和庫(kù)存服務(wù)的私有版本還在。Percolator的獨(dú)特之處就是在這里,它會(huì)啟動(dòng)異步線程來(lái)更新賬戶(hù)服務(wù)和庫(kù)存服務(wù)。最終數(shù)據(jù)如下表:

分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么

因?yàn)閰f(xié)調(diào)節(jié)點(diǎn)只需要跟獲取primary lock的切片進(jìn)行通信,要么成功要么失敗這樣就避免了commit時(shí)節(jié)點(diǎn)不能全部成功導(dǎo)致的數(shù)據(jù)不一致問(wèn)題。

而prepare階段記錄了日志,如果某個(gè)切片commit失敗,可以根據(jù)日志進(jìn)行再次commit,這樣就保證了數(shù)據(jù)最終一致。

如果協(xié)調(diào)節(jié)點(diǎn)宕機(jī)了,異步線程可以做資源的釋放工作,避免了因單點(diǎn)故障通信失敗造成的資源不能釋放。

這里我們要注意2點(diǎn):

  • primary lock的選擇是隨機(jī)的,比如本例中并不一定會(huì)選擇訂單服務(wù)

  • 協(xié)調(diào)節(jié)點(diǎn)發(fā)送commit后訂單服務(wù)先提交成功,這時(shí)如果其他事務(wù)要讀取賬戶(hù)服務(wù)和庫(kù)存服務(wù)的2條數(shù)據(jù),雖然2條數(shù)據(jù)上面還有l(wèi)ock,但是查找primary@order.bal發(fā)現(xiàn)已提交,所以是可以讀取的。

總結(jié)

2PC協(xié)議有3個(gè)問(wèn)題,性能問(wèn)題、單點(diǎn)故障和數(shù)據(jù)不一致。

Percolator模型簡(jiǎn)化了協(xié)調(diào)節(jié)點(diǎn)和切片的通信流程,讓協(xié)調(diào)節(jié)點(diǎn)只跟其中一個(gè)primary切片通信,一方面,減少了通信開(kāi)銷(xiāo),另一方面,避免了因?yàn)閱吸c(diǎn)故障,commit階段部分節(jié)點(diǎn)通信失敗導(dǎo)致的數(shù)據(jù)不一致問(wèn)題。

Percolator在prepare階段記錄了日志,這樣即使協(xié)調(diào)節(jié)點(diǎn)故障了,恢復(fù)后也可以根據(jù)日志來(lái)做事務(wù)恢復(fù)。

Percolator使用異步線程來(lái)做資源的釋放工作,這樣即使協(xié)調(diào)節(jié)點(diǎn)故障了,也不用擔(dān)心資源得不到釋放。

知名的NewSQL數(shù)據(jù)庫(kù)TiDB就是參照Percolator模型來(lái)對(duì)2PC協(xié)議進(jìn)行優(yōu)化的。

但是我們要知道,2PC的性能問(wèn)題還是存在的,好在主流的分布式數(shù)據(jù)庫(kù)都做了優(yōu)化,性能損耗只會(huì)越來(lái)越小。

到此,相信大家對(duì)“分布式數(shù)據(jù)庫(kù)對(duì)2PC的優(yōu)化方法是什么”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢(xún),關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI