TiDB 技術內幕 - 談調度

發(fā)布時間：2020-08-18 11:06:48 來源：ITPUB博客閱讀：147 作者：tangyunoracle 欄目：數(shù)據(jù)庫

為什么要進行調度

先回憶一下第一篇文章提到的一些信息，TiKV 集群是 TiDB 數(shù)據(jù)庫的分布式 KV 存儲引擎，數(shù)據(jù)以 Region 為單位進行復制和管理，每個 Region 會有多個 Replica（副本），這些 Replica 會分布在不同的 TiKV 節(jié)點上，其中 Leader 負責讀/寫，F(xiàn)ollower 負責同步 Leader 發(fā)來的 raft log。了解了這些信息后，請思考下面這些問題：

如何保證同一個 Region 的多個 Replica 分布在不同的節(jié)點上？更進一步，如果在一臺機器上啟動多個 TiKV 實例，會有什么問題？
TiKV 集群進行跨機房部署用于容災的時候，如何保證一個機房掉線，不會丟失 Raft Group 的多個 Replica？
添加一個節(jié)點進入 TiKV 集群之后，如何將集群中其他節(jié)點上的數(shù)據(jù)搬過來?
當一個節(jié)點掉線時，會出現(xiàn)什么問題？整個集群需要做什么事情？如果節(jié)點只是短暫掉線（重啟服務），那么如何處理？如果節(jié)點是長時間掉線（磁盤故障，數(shù)據(jù)全部丟失），需要如何處理？
假設集群需要每個 Raft Group 有 N 個副本，那么對于單個 Raft Group 來說，Replica 數(shù)量可能會不夠多（例如節(jié)點掉線，失去副本），也可能會過于多（例如掉線的節(jié)點又回復正常，自動加入集群）。那么如何調節(jié) Replica 個數(shù)？
讀/寫都是通過 Leader 進行，如果 Leader 只集中在少量節(jié)點上，會對集群有什么影響？
并不是所有的 Region 都被頻繁的訪問，可能訪問熱點只在少數(shù)幾個 Region，這個時候我們需要做什么？
集群在做負載均衡的時候，往往需要搬遷數(shù)據(jù)，這種數(shù)據(jù)的遷移會不會占用大量的網(wǎng)絡帶寬、磁盤 IO 以及 CPU？進而影響在線服務？

這些問題單獨拿出可能都能找到簡單的解決方案，但是混雜在一起，就不太好解決。有的問題貌似只需要考慮單個 Raft Group 內部的情況，比如根據(jù)副本數(shù)量是否足夠多來決定是否需要添加副本。但是實際上這個副本添加在哪里，是需要考慮全局的信息。整個系統(tǒng)也是在動態(tài)變化，Region 分裂、節(jié)點加入、節(jié)點失效、訪問熱點變化等情況會不斷發(fā)生，整個調度系統(tǒng)也需要在動態(tài)中不斷向最優(yōu)狀態(tài)前進，如果沒有一個掌握全局信息，可以對全局進行調度，并且可以配置的組件，就很難滿足這些需求。因此我們需要一個中心節(jié)點，來對系統(tǒng)的整體狀況進行把控和調整，所以有了 PD 這個模塊。

調度的需求

上面羅列了一大堆問題，我們先進行分類和整理?？傮w來看，問題有兩大類：

作為一個分布式高可用存儲系統(tǒng)，必須滿足的需求，包括四種：

副本數(shù)量不能多也不能少
副本需要分布在不同的機器上
新加節(jié)點后，可以將其他節(jié)點上的副本遷移過來
節(jié)點下線后，需要將該節(jié)點的數(shù)據(jù)遷移走

作為一個良好的分布式系統(tǒng)，需要優(yōu)化的地方，包括：

維持整個集群的 Leader 分布均勻
維持每個節(jié)點的儲存容量均勻
維持訪問熱點分布均勻
控制 Balance 的速度，避免影響在線服務
管理節(jié)點狀態(tài)，包括手動上線/下線節(jié)點，以及自動下線失效節(jié)點

滿足第一類需求后，整個系統(tǒng)將具備多副本容錯、動態(tài)擴容/縮容、容忍節(jié)點掉線以及自動錯誤恢復的功能。滿足第二類需求后，可以使得整體系統(tǒng)的負載更加均勻、且可以方便的管理。

為了滿足這些需求，首先我們需要收集足夠的信息，比如每個節(jié)點的狀態(tài)、每個 Raft Group 的信息、業(yè)務訪問操作的統(tǒng)計等；其次需要設置一些策略，PD 根據(jù)這些信息以及調度的策略，制定出盡量滿足前面所述需求的調度計劃；最后需要一些基本的操作，來完成調度計劃。

調度的基本操作

我們先來介紹最簡單的一點，也就是調度的基本操作，也就是為了滿足調度的策略，我們有哪些功能可以用。這是整個調度的基礎，了解了手里有什么樣的錘子，才知道用什么樣的姿勢去砸釘子。

上述調度需求看似復雜，但是整理下來最終落地的無非是下面三件事：

增加一個 Replica
刪除一個 Replica
將 Leader 角色在一個 Raft Group 的不同 Replica 之間 transfer

剛好 Raft 協(xié)議能夠滿足這三種需求，通過 AddReplica、RemoveReplica、TransferLeader 這三個命令，可以支撐上述三種基本操作。

信息收集

調度依賴于整個集群信息的收集，簡單來說，我們需要知道每個 TiKV 節(jié)點的狀態(tài)以及每個 Region 的狀態(tài)。TiKV 集群會向 PD 匯報兩類消息：

每個 TiKV 節(jié)點會定期向 PD 匯報節(jié)點的整體信息

TiKV 節(jié)點（Store）與 PD 之間存在心跳包，一方面 PD 通過心跳包檢測每個 Store 是否存活，以及是否有新加入的 Store；另一方面，心跳包中也會攜帶這個 Store 的狀態(tài)信息，主要包括：

總磁盤容量
可用磁盤容量
承載的 Region 數(shù)量
數(shù)據(jù)寫入速度
發(fā)送/接受的 Snapshot 數(shù)量（Replica 之間可能會通過 Snapshot 同步數(shù)據(jù)）
是否過載
標簽信息（標簽是具備層級關系的一系列 Tag）

每個 Raft Group 的 Leader 會定期向 PD 匯報信息

每個 Raft Group 的 Leader 和 PD 之間存在心跳包，用于匯報這個 Region 的狀態(tài)，主要包括下面幾點信息：

Leader 的位置
Followers 的位置
掉線 Replica 的個數(shù)
數(shù)據(jù)寫入/讀取的速度

PD 不斷的通過這兩類心跳消息收集整個集群的信息，再以這些信息作為決策的依據(jù)。除此之外，PD 還可以通過管理接口接受額外的信息，用來做更準確的決策。比如當某個 Store 的心跳包中斷的時候，PD 并不能判斷這個節(jié)點是臨時失效還是永久失效，只能經(jīng)過一段時間的等待（默認是 30 分鐘），如果一直沒有心跳包，就認為是 Store 已經(jīng)下線，再決定需要將這個 Store 上面的 Region 都調度走。但是有的時候，是運維人員主動將某臺機器下線，這個時候，可以通過 PD 的管理接口通知 PD 該 Store 不可用，PD 就可以馬上判斷需要將這個 Store 上面的 Region 都調度走。

調度的策略

PD 收集了這些信息后，還需要一些策略來制定具體的調度計劃。

一個 Region 的 Replica 數(shù)量正確

當 PD 通過某個 Region Leader 的心跳包發(fā)現(xiàn)這個 Region 的 Replica 數(shù)量不滿足要求時，需要通過 Add/Remove Replica 操作調整 Replica 數(shù)量。出現(xiàn)這種情況的可能原因是：

某個節(jié)點掉線，上面的數(shù)據(jù)全部丟失，導致一些 Region 的 Replica 數(shù)量不足
某個掉線節(jié)點又恢復服務，自動接入集群，這樣之前已經(jīng)補足了 Replica 的 Region 的 Replica 數(shù)量多過，需要刪除某個 Replica
管理員調整了副本策略，修改了 max-replicas 的配置

一個 Raft Group 中的多個 Replica 不在同一個位置

注意第二點，『一個 Raft Group 中的多個 Replica 不在同一個位置』，這里用的是『同一個位置』而不是『同一個節(jié)點』。在一般情況下，PD 只會保證多個 Replica 不落在一個節(jié)點上，以避免單個節(jié)點失效導致多個 Replica 丟失。在實際部署中，還可能出現(xiàn)下面這些需求：

多個節(jié)點部署在同一臺物理機器上
TiKV 節(jié)點分布在多個機架上，希望單個機架掉電時，也能保證系統(tǒng)可用性
TiKV 節(jié)點分布在多個 IDC 中，希望單個機房掉電時，也能保證系統(tǒng)可用

這些需求本質上都是某一個節(jié)點具備共同的位置屬性，構成一個最小的容錯單元，我們希望這個單元內部不會存在一個 Region 的多個 Replica。這個時候，可以給節(jié)點配置 lables 并且通過在 PD 上配置 location-labels 來指明哪些 lable 是位置標識，需要在 Replica 分配的時候盡量保證不會有一個 Region 的多個 Replica 所在結點有相同的位置標識。

副本在 Store 之間的分布均勻分配

前面說過，每個副本中存儲的數(shù)據(jù)容量上限是固定的，所以我們維持每個節(jié)點上面，副本數(shù)量的均衡，會使得總體的負載更均衡。

Leader 數(shù)量在 Store 之間均勻分配

Raft 協(xié)議要讀取和寫入都通過 Leader 進行，所以計算的負載主要在 Leader 上面，PD 會盡可能將 Leader 在節(jié)點間分散開。

訪問熱點數(shù)量在 Store 之間均勻分配

每個 Store 以及 Region Leader 在上報信息時攜帶了當前訪問負載的信息，比如 Key 的讀取/寫入速度。PD 會檢測出訪問熱點，且將其在節(jié)點之間分散開。

各個 Store 的存儲空間占用大致相等

每個 Store 啟動的時候都會指定一個 Capacity 參數(shù)，表明這個 Store 的存儲空間上限，PD 在做調度的時候，會考慮節(jié)點的存儲空間剩余量。

控制調度速度，避免影響在線服務

調度操作需要耗費 CPU、內存、磁盤 IO 以及網(wǎng)絡帶寬，我們需要避免對線上服務造成太大影響。PD 會對當前正在進行的操作數(shù)量進行控制，默認的速度控制是比較保守的，如果希望加快調度(比如已經(jīng)停服務升級，增加新節(jié)點，希望盡快調度)，那么可以通過 pd-ctl 手動加快調度速度。

支持手動下線節(jié)點

當通過 pd-ctl 手動下線節(jié)點后，PD 會在一定的速率控制下，將節(jié)點上的數(shù)據(jù)調度走。當調度完成后，就會將這個節(jié)點置為下線狀態(tài)。

調度的實現(xiàn)

了解了上面這些信息后，接下來我們看一下整個調度的流程。

PD 不斷的通過 Store 或者 Leader 的心跳包收集信息，獲得整個集群的詳細數(shù)據(jù)，并且根據(jù)這些信息以及調度策略生成調度操作序列，每次收到 Region Leader 發(fā)來的心跳包時，PD 都會檢查是否有對這個 Region 待進行的操作，通過心跳包的回復消息，將需要進行的操作返回給 Region Leader，并在后面的心跳包中監(jiān)測執(zhí)行結果。注意這里的操作只是給 Region Leader 的建議，并不保證一定能得到執(zhí)行，具體是否會執(zhí)行以及什么時候執(zhí)行，由 Region Leader 自己根據(jù)當前自身狀態(tài)來定。

總結

本篇文章講的東西，大家可能平時很少會在其他文章中看到，每一個設計都有背后的考量，希望大家能了解到一個分布式存儲系統(tǒng)在做調度的時候，需要考慮哪些東西，如何將策略、實現(xiàn)進行解耦，更靈活的支持策略的擴展。

至此三篇文章已經(jīng)講完，希望大家能夠對整個 TiDB 的基本概念和實現(xiàn)原理有了解，后續(xù)我們還會寫更多的文章，從架構以及代碼級別介紹 TiDB 的更多內幕。如果大家有問題，歡迎發(fā)郵件到 shenli@pingcap.com 進行交流。

-----------------------------------End[Tony.Tang]2018.3.8------------------------------------------------------------

向AI問一下細節(jié)

TiDB 技術內幕 - 談調度

為什么要進行調度

調度的需求

調度的基本操作

信息收集

調度的策略

調度的實現(xiàn)

總結

猜你喜歡

最新資訊

相關推薦

相關標簽