溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

發(fā)布時間:2020-03-31 18:17:07 來源:網(wǎng)絡(luò) 閱讀:651 作者:CaiJiantao 欄目:系統(tǒng)運維

概述   

Windows Server故障轉(zhuǎn)移集群是一個高可用性平臺,它不斷監(jiān)視集群中的網(wǎng)絡(luò)連接和節(jié)點的健康狀況。如果一個節(jié)點無法通過網(wǎng)絡(luò)訪問,那么將采取恢復(fù)操作來恢復(fù)集群中的另一個節(jié)點上的應(yīng)用程序和服務(wù),并使其聯(lián)機。

    

    缺省情況下,故障轉(zhuǎn)移集群被配置為提供最高級別的可用性,停機時間最小。默認的開箱即用設(shè)置是針對服務(wù)器完全丟失的故障進行優(yōu)化的,我們將在本博客中稱之為硬故障。這些將是不可恢復(fù)的故障場景,例如非冗余硬件或電源的故障。在這些情況下,服務(wù)器將丟失,而故障轉(zhuǎn)移集群的目標(biāo)是非??焖俚貦z測服務(wù)器的丟失,并在集群中的另一臺服務(wù)器上快速恢復(fù)。要從硬故障中實現(xiàn)這種快速恢復(fù),集群健康監(jiān)測的默認設(shè)置是相當(dāng)積極的。但是,它們是完全可配置的,可以為各種場景提供靈活性。


    這些默認設(shè)置為大多數(shù)客戶提供了最佳的行為,但是,當(dāng)集群從幾英寸擴展到可能相隔幾英里時,集群可能會暴露在節(jié)點之間附加的、可能不可靠的網(wǎng)絡(luò)組件中。另一個因素是,普通服務(wù)器的質(zhì)量在不斷提高,加上通過冗余組件(如雙電源、網(wǎng)卡組和多路徑I/O)增強的彈性,非冗余硬件故障的數(shù)量可能相當(dāng)少。由于硬故障可能不那么頻繁,一些客戶可能希望針對臨時故障對集群進行調(diào)優(yōu),此時集群對節(jié)點之間的短暫網(wǎng)絡(luò)故障更有彈性。通過增加缺省故障閾值,可以降低對持續(xù)較短時間的簡短網(wǎng)絡(luò)問題的敏感性。


權(quán)衡

重要的是,大家要理解下面提到的權(quán)衡沒有絕對的答案,優(yōu)化的設(shè)置可能因您的特定業(yè)務(wù)需求和服務(wù)水平協(xié)議而異。

  • 積極監(jiān)控 - 提供最快的故障檢測和硬故障恢復(fù),提供最高級別的可用性。集群對瞬態(tài)故障的容忍度較低,在某些情況下,當(dāng)存在瞬態(tài)網(wǎng)絡(luò)中斷時,可能會過早地進行故障轉(zhuǎn)移資源。

  • 放松監(jiān)控 - 提供更寬容的故障檢測,提供更大的容忍度的短暫瞬態(tài)網(wǎng)絡(luò)問題。這些較長的超時將導(dǎo)致集群從硬故障中恢復(fù),這將花費更多的時間并增加停機時間。


    把它想象成你的手機,當(dāng)電話的另一端沒有聲音時,你愿意坐在那里說“你好”多長時間?…你還在聽嗎?…你還在聽嗎??在你掛斷電話給那個人回電話之前。當(dāng)另一端沉默時,你不知道他們何時甚至是否會回來。
你需要問自己的關(guān)鍵問題是:什么對你更重要?當(dāng)你拔下電源線時,要快速恢復(fù),還是要對網(wǎng)絡(luò)故障保持容忍度?


設(shè)置

影響集群心跳和節(jié)點間健康檢測的主要設(shè)置有四種。

  • 延遲 這定義了在節(jié)點之間發(fā)送集群心跳信號的頻率。延遲是在發(fā)送下一個心跳信號之前的秒數(shù)。在同一個集群中,同一子網(wǎng)上的節(jié)點之間、不同子網(wǎng)上的節(jié)點之間以及不同故障AD站點上的節(jié)點之間可能存在不同的延遲。

  • 閾值 - 這定義了在集群采取恢復(fù)操作之前錯過的心跳信號次數(shù)。閾值是心跳信號的次數(shù)。在同一個集群中,同一子網(wǎng)上的節(jié)點之間、不同子網(wǎng)上的節(jié)點之間以及不同故障AD站點上的節(jié)點之間可以有不同的閾值。


    重要的是要理解延遲和閾值對總體健康檢測都有累積影響。例如,將cross - subnetdelay設(shè)置為每2秒發(fā)送一次心跳,并將cross - subnetthreshold設(shè)置為在進行恢復(fù)之前錯過的10次心跳,這意味著在采取恢復(fù)操作之前,集群的總網(wǎng)絡(luò)容忍度可以達到20秒。一般來說,繼續(xù)發(fā)送頻繁的心跳,但有更大的閾值是首選的方法。增加延遲的主要場景是,節(jié)點之間發(fā)送的數(shù)據(jù)是否有進入/退出費用。下表列出了用于調(diào)優(yōu)集群心跳的屬性以及默認值和最大值。


Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

    為了更好地容忍瞬態(tài)故障,建議在Win2008 / Win2008 R2 / Win2012 / Win2012 R2上將相同的ubnetthreshold和cross - subnetthreshold值增加到比Win2016更高些。注意:如果Hyper-V角色安裝在Windows Server 2012 R2故障轉(zhuǎn)移集群上,SameSubnetThreshold默認值將自動增加到10,而cross - subnetthreshold默認值將自動增加到20。安裝以下熱修復(fù)程序后,Windows Server 2012 R2上的默認心跳值將增加到和Windows Server 2016上的值一樣。

https://support.microsoft.com/en-us/kb/3153887


配置

    集群心跳配置設(shè)置被認為是高級設(shè)置,僅通過PowerShell公開??梢栽诩簡硬⑦\行時設(shè)置這些設(shè)置,而不需要停機,并且將立即生效,不需要重新啟動或重新啟動集群。
要查看當(dāng)前心跳配置值:

PS C:\> get-cluster | fl *subnet*

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)

可以使用以下語法修改設(shè)置:

PS C:\> (get-cluster).SameSubnetThreshold = 20

Exchange故障轉(zhuǎn)移群集網(wǎng)絡(luò)閥值調(diào)優(yōu)


日志記錄的其他注意事項

    在Windows Server 2012中,在Cluster.log中有額外的日志記錄,用于記錄心跳停止時的心跳流量。默認情況下,RouteHistoryLength設(shè)置為10,這是默認閾值數(shù)量的兩倍。如果您增加了SameSubnetThreshold或CrossSubnetThrehold值,建議將RouteHistoryLength值增加到該值的兩倍,以確保在需要排除正在丟棄的心跳包的故障時,有足夠的日志記錄。這可以通過以下語法實現(xiàn):

PS C:\> (get-cluster).RouteHistoryLength = 20

有關(guān)因網(wǎng)絡(luò)通信問題而從集群成員中刪除節(jié)點的故障排除問題的更多信息,請參見以下博客:

http://blogs.technet.com/b/askcore/archive/2012/02/08/having-a-problem-with-nodes-being-removed-from-active-failover-cluster-membership.aspx

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI