溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

發(fā)布時間：2020-03-31 18:17:07 來源：網(wǎng)絡(luò) 閱讀：651 作者：CaiJiantao 欄目：系統(tǒng)運維

概述

Windows Server故障轉(zhuǎn)移集群是一個高可用性平臺，它不斷監(jiān)視集群中的網(wǎng)絡(luò)連接和節(jié)點的健康狀況。如果一個節(jié)點無法通過網(wǎng)絡(luò)訪問，那么將采取恢復(fù)操作來恢復(fù)集群中的另一個節(jié)點上的應(yīng)用程序和服務(wù)，并使其聯(lián)機。

缺省情況下，故障轉(zhuǎn)移集群被配置為提供最高級別的可用性，停機時間最小。默認的開箱即用設(shè)置是針對服務(wù)器完全丟失的故障進行優(yōu)化的，我們將在本博客中稱之為硬故障。這些將是不可恢復(fù)的故障場景，例如非冗余硬件或電源的故障。在這些情況下，服務(wù)器將丟失，而故障轉(zhuǎn)移集群的目標(biāo)是非?？焖俚貦z測服務(wù)器的丟失，并在集群中的另一臺服務(wù)器上快速恢復(fù)。要從硬故障中實現(xiàn)這種快速恢復(fù)，集群健康監(jiān)測的默認設(shè)置是相當(dāng)積極的。但是，它們是完全可配置的，可以為各種場景提供靈活性。

這些默認設(shè)置為大多數(shù)客戶提供了最佳的行為，但是，當(dāng)集群從幾英寸擴展到可能相隔幾英里時，集群可能會暴露在節(jié)點之間附加的、可能不可靠的網(wǎng)絡(luò)組件中。另一個因素是，普通服務(wù)器的質(zhì)量在不斷提高，加上通過冗余組件(如雙電源、網(wǎng)卡組和多路徑I/O)增強的彈性，非冗余硬件故障的數(shù)量可能相當(dāng)少。由于硬故障可能不那么頻繁，一些客戶可能希望針對臨時故障對集群進行調(diào)優(yōu)，此時集群對節(jié)點之間的短暫網(wǎng)絡(luò)故障更有彈性。通過增加缺省故障閾值，可以降低對持續(xù)較短時間的簡短網(wǎng)絡(luò)問題的敏感性。

權(quán)衡

重要的是，大家要理解下面提到的權(quán)衡沒有絕對的答案，優(yōu)化的設(shè)置可能因您的特定業(yè)務(wù)需求和服務(wù)水平協(xié)議而異。

積極監(jiān)控 - 提供最快的故障檢測和硬故障恢復(fù)，提供最高級別的可用性。集群對瞬態(tài)故障的容忍度較低，在某些情況下，當(dāng)存在瞬態(tài)網(wǎng)絡(luò)中斷時，可能會過早地進行故障轉(zhuǎn)移資源。
放松監(jiān)控 - 提供更寬容的故障檢測，提供更大的容忍度的短暫瞬態(tài)網(wǎng)絡(luò)問題。這些較長的超時將導(dǎo)致集群從硬故障中恢復(fù)，這將花費更多的時間并增加停機時間。

把它想象成你的手機，當(dāng)電話的另一端沒有聲音時，你愿意坐在那里說“你好”多長時間?…你還在聽嗎?…你還在聽嗎??在你掛斷電話給那個人回電話之前。當(dāng)另一端沉默時，你不知道他們何時甚至是否會回來。
你需要問自己的關(guān)鍵問題是:什么對你更重要?當(dāng)你拔下電源線時，要快速恢復(fù)，還是要對網(wǎng)絡(luò)故障保持容忍度?

設(shè)置

影響集群心跳和節(jié)點間健康檢測的主要設(shè)置有四種。

延遲 - 這定義了在節(jié)點之間發(fā)送集群心跳信號的頻率。延遲是在發(fā)送下一個心跳信號之前的秒數(shù)。在同一個集群中，同一子網(wǎng)上的節(jié)點之間、不同子網(wǎng)上的節(jié)點之間以及不同故障AD站點上的節(jié)點之間可能存在不同的延遲。
閾值 - 這定義了在集群采取恢復(fù)操作之前錯過的心跳信號次數(shù)。閾值是心跳信號的次數(shù)。在同一個集群中，同一子網(wǎng)上的節(jié)點之間、不同子網(wǎng)上的節(jié)點之間以及不同故障AD站點上的節(jié)點之間可以有不同的閾值。

重要的是要理解延遲和閾值對總體健康檢測都有累積影響。例如，將cross - subnetdelay設(shè)置為每2秒發(fā)送一次心跳，并將cross - subnetthreshold設(shè)置為在進行恢復(fù)之前錯過的10次心跳，這意味著在采取恢復(fù)操作之前，集群的總網(wǎng)絡(luò)容忍度可以達到20秒。一般來說，繼續(xù)發(fā)送頻繁的心跳，但有更大的閾值是首選的方法。增加延遲的主要場景是，節(jié)點之間發(fā)送的數(shù)據(jù)是否有進入/退出費用。下表列出了用于調(diào)優(yōu)集群心跳的屬性以及默認值和最大值。

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

為了更好地容忍瞬態(tài)故障，建議在Win2008 / Win2008 R2 / Win2012 / Win2012 R2上將相同的ubnetthreshold和cross - subnetthreshold值增加到比Win2016更高些。注意:如果Hyper-V角色安裝在Windows Server 2012 R2故障轉(zhuǎn)移集群上，SameSubnetThreshold默認值將自動增加到10，而cross - subnetthreshold默認值將自動增加到20。安裝以下熱修復(fù)程序后，Windows Server 2012 R2上的默認心跳值將增加到和Windows Server 2016上的值一樣。

https://support.microsoft.com/en-us/kb/3153887

配置

集群心跳配置設(shè)置被認為是高級設(shè)置，僅通過PowerShell公開?？梢栽诩簡硬⑦\行時設(shè)置這些設(shè)置，而不需要停機，并且將立即生效，不需要重新啟動或重新啟動集群。
要查看當(dāng)前心跳配置值:

PS C:\> get-cluster | fl *subnet*

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

可以使用以下語法修改設(shè)置:

PS C:\> (get-cluster).SameSubnetThreshold = 20

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

日志記錄的其他注意事項

在Windows Server 2012中，在Cluster.log中有額外的日志記錄，用于記錄心跳停止時的心跳流量。默認情況下，RouteHistoryLength設(shè)置為10，這是默認閾值數(shù)量的兩倍。如果您增加了SameSubnetThreshold或CrossSubnetThrehold值，建議將RouteHistoryLength值增加到該值的兩倍，以確保在需要排除正在丟棄的心跳包的故障時，有足夠的日志記錄。這可以通過以下語法實現(xiàn):

PS C:\> (get-cluster).RouteHistoryLength = 20

有關(guān)因網(wǎng)絡(luò)通信問題而從集群成員中刪除節(jié)點的故障排除問題的更多信息，請參見以下博客:

http://blogs.technet.com/b/askcore/archive/2012/02/08/having-a-problem-with-nodes-being-removed-from-active-failover-cluster-membership.aspx

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
軟件質(zhì)量之web項目的CUT
下一篇新聞：
zabbix——計算所需數(shù)據(jù)庫空間

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼