<table id="aqscs"><abbr id="aqscs"></abbr></table>
<tbody id="aqscs"></tbody>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點(diǎn)擊重新獲取二維碼

MySQL持久化和回滾的原理是什么

發(fā)布時間：2021-11-12 13:47:19 來源：億速云閱讀：142 作者：柒染欄目：開發(fā)技術(shù)

今天就跟大家聊聊有關(guān)MySQL持久化和回滾的原理是什么，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

redo log

事務(wù)的支持是數(shù)據(jù)庫區(qū)分文件系統(tǒng)的重要特征之一，事務(wù)的四大特性：

原子性：所有的操作要么都做，要么都不做，不可分割。
一致性：數(shù)據(jù)庫從一種狀態(tài)變成另一種狀態(tài)的的結(jié)果最終是一致的，比如A給B轉(zhuǎn)賬500，A最終少了500，B最終多了500，但是A+B的值始終沒變。
隔離性：事務(wù)和事務(wù)之前相互隔離，互不干擾。
持久性：事務(wù)一旦提交，它對數(shù)據(jù)的變更是永久性的。

本篇文章主要說說持久性相關(guān)的知識。

當(dāng)我們在事務(wù)中更新一條記錄的時候，比如：

update user set age=11 where user_id=1;

它的流程大概是這樣的：

先判斷user_id這條數(shù)據(jù)所在的頁是否在內(nèi)存里，如果不在的話，先從數(shù)據(jù)庫讀取到，然后加載到內(nèi)存中
修改內(nèi)存中的age為11
寫入redo log，并且redo log處于prepare狀態(tài)
寫入binlog
提交事務(wù)，redo log變成commit狀態(tài)

MySQL持久化和回滾的原理是什么

這里面有幾個關(guān)鍵的點(diǎn)：redo log是什么？為什么需要redo log？prepare狀態(tài)的redo log是什么？redo log和binlog是否可以只選其一...?帶著這一系列的問題，我們來揭開redo log的面紗。

為什么要先更新內(nèi)存數(shù)據(jù)，不直接更新磁盤數(shù)據(jù)？

我們?yōu)槭裁床幻看胃聰?shù)據(jù)的時候，直接更新對應(yīng)的磁盤數(shù)據(jù)？首先我們知道磁盤IO是緩慢的，內(nèi)存是快速的，兩者的速度不是一個量級的，那么針對緩慢的磁盤IO，出現(xiàn)了索引，通過索引哪怕數(shù)據(jù)成百上千萬我們依然可以在磁盤上很快速的找我們的數(shù)據(jù)，這就是索引的作用。但是索引也需要維護(hù)，并不是一成不變的，當(dāng)我們插入一條新數(shù)據(jù)A的時候，由于這條數(shù)據(jù)要插入在已存在的數(shù)據(jù)B之后，那么就要移動B數(shù)據(jù)，讓出一個位置給A，這個有一定的開銷。更糟糕的是，本來要插入的頁已經(jīng)滿了，那么就要申請一個新的頁，然后挪一部分?jǐn)?shù)據(jù)過去，這叫做頁的分裂，這個開銷更大。如果我們的sql變更是直接修改磁盤的數(shù)據(jù)，恰巧正好出現(xiàn)上面的問題，那么此時的效率就會很低，嚴(yán)重的話會造成超時，這也是上面更新的過程為什么先要加載對應(yīng)的數(shù)據(jù)頁到內(nèi)存中，然后先更新內(nèi)存中的數(shù)據(jù)的原因。對于mysql來說，所有的變更都必須先更新緩沖池中的數(shù)據(jù)，然后緩沖池中的臟頁會以一定的頻率被刷入磁盤（checkPoint機(jī)制），通過緩沖池來優(yōu)化CPU和磁盤之間的鴻溝，這樣就可以保證整體的性能不會下降太快。

為什么需要redo log？

緩沖池可以幫助我們消除CPU和磁盤之間的鴻溝，checkpoint機(jī)制可以保證數(shù)據(jù)的最終落盤，然而由于checkpoint并不是每次變更的時候就觸發(fā)的，而是master線程隔一段時間去處理的。所以最壞的情況就是剛寫完緩沖池，數(shù)據(jù)庫宕機(jī)了，那么這段數(shù)據(jù)就是丟失的，無法恢復(fù)。這樣的話就不滿足ACID中的D，為了解決這種情況下的持久化問題，InnoDB引擎的事務(wù)采用了WAL技術(shù)（Write-Ahead Logging），這種技術(shù)的思想就是先寫日志，再寫磁盤，只有日志寫入成功，才算事務(wù)提交成功，這里的日志就是redo log。當(dāng)發(fā)生宕機(jī)且數(shù)據(jù)未刷到磁盤的時候，可以通過redo log來恢復(fù)，保證ACID中的D，這就是redo log的作用。

redo log是如何實(shí)現(xiàn)的？

redo log的寫入并不是直接寫入磁盤的，redo log也有緩沖區(qū)的，叫做redo log buffer（重做日志緩沖），InnoDB引擎會在寫redo log的時候先寫redo log buffer，然后也是以一定的頻率刷入到真正的redo log中，redo log buffer一般不需要特別大，它只是一個臨時的容器，master線程會每秒將redo log buffer刷到redo log文件中，因此我們只要保證redo log buffer能夠存下1s內(nèi)的事務(wù)變更的數(shù)據(jù)量即可，以mysql5.7.23為例，這個默認(rèn)是16M。

mysql> show variables like '%innodb_log_buffer_size%';
+------------------------+----------+
| Variable_name          | Value    |
+------------------------+----------+
| innodb_log_buffer_size | 16777216 |
+------------------------+----------+

16M的buffer足夠應(yīng)對大部分應(yīng)用了，buffer同步到redo log的策略主要有如下幾個：

master線程每秒將buffer刷到到redo log中
每個事務(wù)提交的時候會將buffer刷到redo log中
當(dāng)buffer剩余空間小于1/2時，會被刷到redo log中

需要注意的是redo log buffer刷到redo log的過程并不是真正的刷到磁盤中去了，只是刷入到os cache中去，這是現(xiàn)代操作系統(tǒng)為了提高文件寫入的效率做的一個優(yōu)化，真正的寫入會交給系統(tǒng)自己來決定（比如os cache足夠大了）。那么對于InnoDB來說就存在一個問題，如果交給系統(tǒng)來fsync，同樣如果系統(tǒng)宕機(jī)，那么數(shù)據(jù)也丟失了（雖然整個系統(tǒng)宕機(jī)的概率還是比較小的）。針對這種情況，InnoDB給出innodb_flush_log_at_trx_commit策略，讓用戶自己決定使用哪個。

mysql> show variables like 'innodb_flush_log_at_trx_commit';
+--------------------------------+-------+
| Variable_name                  | Value |
+--------------------------------+-------+
| innodb_flush_log_at_trx_commit | 1     |
+--------------------------------+-------+

0：表示事務(wù)提交后，不進(jìn)行fsync，而是由master每隔1s進(jìn)行一次重做日志的fysnc
1：默認(rèn)值，每次事務(wù)提交的時候同步進(jìn)行fsync
2：寫入os cache后，交給操作系統(tǒng)自己決定什么時候fsync

從3種刷入策略來說：

2肯定是效率最高的，但是只要操作系統(tǒng)發(fā)生宕機(jī)，那么就會丟失os cache中的數(shù)據(jù)，這種情況下無法滿足ACID中的D

0的話，是一種折中的做法，它的IO效率理論是高于1的，低于2的，它的數(shù)據(jù)安全性理論是要低于1的，高于2的，這種策略也有丟失數(shù)據(jù)的風(fēng)險(xiǎn)，也無法保證D。

1是默認(rèn)值，可以保證D，數(shù)據(jù)絕對不會丟失，但是效率最差的。個人建議使用默認(rèn)值，雖然操作系統(tǒng)宕機(jī)的概率理論小于數(shù)據(jù)庫宕機(jī)的概率，但是一般既然使用了事務(wù)，那么數(shù)據(jù)的安全應(yīng)該是相對來說更重要些。

redo log是對頁的物理修改，第x頁的第x位置修改成xx，比如：

page(2,4),offset 64,value 2

在InnoDB引擎中，redo log都是以512字節(jié)為單位進(jìn)行存儲的，每個存儲的單位我們稱之為redo log block（重做日志塊），若一個頁中存儲的日志量大于512字節(jié)，那么就需要邏輯上切割成多個block進(jìn)行存儲。

一個redo log block是由日志頭、日志體、日志尾組成。日志頭占用12字節(jié)，日志尾占用8字節(jié)，所以一個block真正能存儲的數(shù)據(jù)就是512-12-8=492字節(jié)。

MySQL持久化和回滾的原理是什么

多個redo log block組成了我們的redo log。

MySQL持久化和回滾的原理是什么

每個redo log默認(rèn)大小為48M：

mysql> show variables like 'innodb_log_file_size';
+----------------------+----------+
| Variable_name        | Value    |
+----------------------+----------+
| innodb_log_file_size | 50331648 |
+----------------------+----------+

InnoDB默認(rèn)2個redo log組成一個log組，真正工作的就是這個log組。

mysql> show variables like 'innodb_log_files_in_group';
+---------------------------+-------+
| Variable_name             | Value |
+---------------------------+-------+
| innodb_log_files_in_group | 2     |
+---------------------------+-------+
#ib_logfile0
#ib_logfile1

當(dāng)ib_logfile0寫完之后，會寫ib_logfile1，當(dāng)ib_logfile1寫完之后，會重新寫ib_logfile0...，就這樣一直不停的循環(huán)寫。

MySQL持久化和回滾的原理是什么

為什么一個block設(shè)計(jì)成512字節(jié)？

這個和磁盤的扇區(qū)有關(guān)，機(jī)械磁盤默認(rèn)的扇區(qū)就是512字節(jié)，如果你要寫入的數(shù)據(jù)大于512字節(jié)，那么要寫入的扇區(qū)肯定不止一個，這時就要涉及到盤片的轉(zhuǎn)動，找到下一個扇區(qū)，假設(shè)現(xiàn)在需要寫入兩個扇區(qū)A和B，如果扇區(qū)A寫入成功，而扇區(qū)B寫入失敗，那么就會出現(xiàn)非原子性的寫入，而如果每次只寫入和扇區(qū)的大小一樣的512字節(jié)，那么每次的寫入都是原子性的。

為什么要兩段式提交？

從上文我們知道，事務(wù)的提交要先寫redo log(prepare)，再寫binlog，最后再提交(commit)。這里為什么要有個prepare的動作？redo log直接commit狀態(tài)不行嗎？假設(shè)redo log直接提交，在寫binlog的時候，發(fā)生了crash，這時binlog就沒有對應(yīng)的數(shù)據(jù)，那么所有依靠binlog來恢復(fù)數(shù)據(jù)的slave，就沒有對應(yīng)的數(shù)據(jù)，導(dǎo)致主從不一致。所以需要通過兩段式（2pc）提交來保證redo log和binlog的一致性是非常有必要的。具體的步驟是：處于prepare狀態(tài)的redo log，會記錄2PC的XID，binlog寫入后也會記錄2PC的XID，同時會在redo log上打上commit標(biāo)識。

redo log和bin log是否可以只需要其中一個？

不可以。redo log本身大小是固定的，在寫滿之后，會重頭開始寫，會覆蓋老數(shù)據(jù)，因?yàn)閞edo log無法保存所有數(shù)據(jù)，所以在主從模式下，想要通過redo log來同步數(shù)據(jù)給從庫是行不通的。那么binlog是一定需要的，binlog是mysql的server層產(chǎn)生的，和存儲引擎無關(guān)，binglog又叫歸檔日志，當(dāng)一個binlog file寫滿之后，會寫入到一個新的binlog file中。所以我們是不是只需要binlog就行了？redo log可以不需要？當(dāng)然也不行，redo log的作用是提供crash-safe的能力，首先對于一個數(shù)據(jù)的修改，是先修改緩沖池中的數(shù)據(jù)頁的，這時修改的數(shù)據(jù)并沒有真正的落盤，這主要是因?yàn)榇疟P的離散讀寫能力效率低，真正落盤的工作交給master線程定期來處理，好處就是master可以一次性把多個修改一起寫入磁盤。那么此時就有一個問題，當(dāng)事務(wù)commit之后，數(shù)據(jù)在緩沖區(qū)的臟頁中，還沒來的及刷入磁盤，此時數(shù)據(jù)庫發(fā)生了崩潰，那么這條commit的數(shù)據(jù)即使在數(shù)據(jù)庫恢復(fù)后，也無法還原，并不能滿足ACID中的D，然后就有了redo log，從流程來看，一個事務(wù)的提交必須保證redo log的寫入成功，只有redo log寫入成功才算事務(wù)提交成功，redo log大部分情況是順序?qū)懙拇疟P，所以它的效率要高很多。當(dāng)commit后發(fā)生crash的情況下，我們可以通過redo log來恢復(fù)數(shù)據(jù)，這也是為什么需要redo log的原因。但是事務(wù)的提交也需要binlog的寫入成功，那為什么不可以通過binlog來恢復(fù)未落盤的數(shù)據(jù)？這是因?yàn)閎inlog不知道哪些數(shù)據(jù)落盤了，所以不知道哪些數(shù)據(jù)需要恢復(fù)。對于redo log而言，在數(shù)據(jù)落盤后對應(yīng)的redo log中的數(shù)據(jù)會被刪除，那么在數(shù)據(jù)庫重啟后，只要把redo log中剩下的數(shù)據(jù)都恢復(fù)就行了。

crash后是如何恢復(fù)的？

通過兩段式提交我們知道redo log和binlog在各個階段會被打上prepare或者commit的標(biāo)識，同時還會記錄事務(wù)的XID，有了這些數(shù)據(jù)，在數(shù)據(jù)庫重啟的時候，會先去redo log里檢查所有的事務(wù)，如果redo log的事務(wù)處于commit狀態(tài)，那么說明在commit后發(fā)生了crash，此時直接把redo log的數(shù)據(jù)恢復(fù)就行了，如果redo log是prepare狀態(tài)，那么說明commit之前發(fā)生了crash，此時binlog的狀態(tài)決定了當(dāng)前事務(wù)的狀態(tài)，如果binlog中有對應(yīng)的XID，說明binlog已經(jīng)寫入成功，只是沒來的及提交，此時再次執(zhí)行commit就行了，如果binlog中找不到對應(yīng)的XID，說明binlog沒寫入成功就crash了，那么此時應(yīng)該執(zhí)行回滾。

undo log

redo log是事務(wù)持久性的保證，undo log是事務(wù)原子性的保證。在事務(wù)中更新數(shù)據(jù)的前置操作其實(shí)是要先寫入一個undo log中的，所以它的流程大致如下：

MySQL持久化和回滾的原理是什么

什么情況下會生成undo log？

undo log的作用就是mvcc（多版本控制）和回滾，我們這里主要說回滾，當(dāng)我們在事務(wù)里insert、update、delete某些數(shù)據(jù)的時候，就會產(chǎn)生對應(yīng)的undo log，當(dāng)我們執(zhí)行回滾時，通過undo log就可以回到事務(wù)開始的樣子。需要注意的是回滾并不是修改的物理頁，而是邏輯的恢復(fù)到最初的樣子，比如一個數(shù)據(jù)A，在事務(wù)里被你修改成B，但是此時有另一個事務(wù)已經(jīng)把它修改成了C，如果回滾直接修改數(shù)據(jù)頁把數(shù)據(jù)改成A，那么C就被覆蓋了。

對于InnoDB引擎來說，每個行記錄除了記錄本身的數(shù)據(jù)之外，還有幾個隱藏的列：

DB_ROW_ID：如果沒有為表顯式的定義主鍵，并且表中也沒有定義唯一索引，那么InnoDB會自動為表添加一個row_id的隱藏列作為主鍵。
DB_TRX_ID：每個事務(wù)都會分配一個事務(wù)ID，當(dāng)對某條記錄發(fā)生變更時，就會將這個事務(wù)的事務(wù)ID寫入trx_id中。
DB_ROLL_PTR：回滾指針，本質(zhì)上就是指向 undo log 的指針。

MySQL持久化和回滾的原理是什么

當(dāng)我們執(zhí)行INSERT時：

begin;
INSERT INTO user (name) VALUES ("tom")

插入的數(shù)據(jù)都會生一條insert undo log，并且數(shù)據(jù)的回滾指針會指向它。undo log會記錄undo log的序號、插入主鍵的列和值...，那么在進(jìn)行rollback的時候，通過主鍵直接把對應(yīng)的數(shù)據(jù)刪除即可。

MySQL持久化和回滾的原理是什么

對于更新的操作會產(chǎn)生update undo log，并且會分更新主鍵的和不更新的主鍵的，假設(shè)現(xiàn)在執(zhí)行：

UPDATE user SET name="Sun" WHERE id=1;

MySQL持久化和回滾的原理是什么

這時會把老的記錄寫入新的undo log，讓回滾指針指向新的undo log，它的undo no是1，并且新的undo log會指向老的undo log（undo no=0）。

假設(shè)現(xiàn)在執(zhí)行：

UPDATE user SET id=2 WHERE id=1;

MySQL持久化和回滾的原理是什么

對于更新主鍵的操作，會先把原來的數(shù)據(jù)deletemark標(biāo)識打開，這時并沒有真正的刪除數(shù)據(jù)，真正的刪除會交給清理線程去判斷，然后在后面插入一條新的數(shù)據(jù)，新的數(shù)據(jù)也會產(chǎn)生undo log，并且undo log的序號會遞增。

可以發(fā)現(xiàn)每次對數(shù)據(jù)的變更都會產(chǎn)生一個undo log，當(dāng)一條記錄被變更多次時，那么就會產(chǎn)生多條undo log，undo log記錄的是變更前的日志，并且每個undo log的序號是遞增的，那么當(dāng)要回滾的時候，按照序號依次向前推，就可以找到我們的原始數(shù)據(jù)了。

undo log是如何回滾的？

以上面的例子來說，假設(shè)執(zhí)行rollback，那么對應(yīng)的流程應(yīng)該是這樣：

通過undo no=3的日志把id=2的數(shù)據(jù)刪除
通過undo no=2的日志把id=1的數(shù)據(jù)的deletemark還原成0
通過undo no=1的日志把id=1的數(shù)據(jù)的name還原成Tom
通過undo no=0的日志把id=1的數(shù)據(jù)刪除

undo log存在什么地方？

InnoDB對undo log的管理采用段的方式，也就是回滾段，每個回滾段記錄了1024個undo log segment，InnoDB引擎默認(rèn)支持128個回滾段

mysql> show variables like 'innodb_undo_logs';
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| innodb_undo_logs | 128   |
+------------------+-------+

那么能支持的最大并發(fā)事務(wù)就是128*1024。每個undo log segment就像維護(hù)一個有1024個元素的數(shù)組。

MySQL持久化和回滾的原理是什么

當(dāng)我們開啟個事務(wù)需要寫undo log的時候，就得先去undo log segment中去找到一個空閑的位置，當(dāng)有空位的時候，就會去申請undo頁，最后會在這個申請到的undo頁中進(jìn)行undo log的寫入。我們知道m(xù)ysql默認(rèn)一頁的大小是16k。

mysql> show variables like '%innodb_page_size%';
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| innodb_page_size | 16384 |
+------------------+-------+

那么為一個事務(wù)就分配一個頁，其實(shí)是非常浪費(fèi)的（除非你的事物非常長），假設(shè)你的應(yīng)用的TPS為1000，那么1s就需要1000個頁，大概需要16M的存儲，1分鐘大概需要1G的存儲...，如果照這樣下去除非mysql清理的非常勤快，否則隨著時間的推移，磁盤空間會增長的非常快，而且很多空間都是浪費(fèi)的。于是undo頁就被設(shè)計(jì)的可以重用了，當(dāng)事務(wù)提交時，并不會立刻刪除undo頁，因?yàn)橹赜?，這個undo頁它可能不干凈了，所以這個undo頁可能混雜著其他事務(wù)的undo log。undo log在commit后，會被放到一個鏈表中，然后判斷undo頁的使用空間是否小于3/4，如果小于3/4的話，則表示當(dāng)前的undo頁可以被重用，那么它就不會被回收，其他事務(wù)的undo log可以記錄在當(dāng)前undo頁的后面。由于undo log是離散的，所以清理對應(yīng)的磁盤空間時，效率不是那么高。

看完上述內(nèi)容，你們對MySQL持久化和回滾的原理是什么有進(jìn)一步的了解嗎？如果還想了解更多知識或者相關(guān)內(nèi)容，請關(guān)注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Python人工智能深度學(xué)習(xí)模型訓(xùn)練經(jīng)驗(yàn)有哪些
下一篇新聞：
Django中的unittest應(yīng)用是什么

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼

<samp id="yuggy"></samp>