溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

WSFC 狀態(tài)操作指南

發(fā)布時間:2020-06-08 03:49:12 來源:網(wǎng)絡(luò) 閱讀:9278 作者:老收藏家 欄目:建站服務(wù)器

 在WSFC中,大家可能會看到各種操作狀態(tài),例如,暫停節(jié)點,停止節(jié)點服務(wù),逐出節(jié)點,恢復(fù)節(jié)點,關(guān)閉群集,銷毀群集,關(guān)閉連接,這些操作到底是什么意思,分別應(yīng)該用于什么場景下,今天我們就來一探究竟,嘀,老王發(fā)車?yán)玻?/span>


 首先我們先從節(jié)點操作講起


 以WSFC 2012R2為例,當(dāng)我們在故障轉(zhuǎn)移管理器,節(jié)點界面下,點擊任意一個節(jié)點,右鍵可以看到以下操作


暫停

恢復(fù)

遠(yuǎn)程桌面

信息詳細(xì)信息

顯示關(guān)鍵事件


WSFC 狀態(tài)操作指南


首先來看暫停,自2012開始,暫停不僅僅只是宣告節(jié)點為維護(hù)狀態(tài),而是可以根據(jù)放置策略,自動把被暫停節(jié)點上的負(fù)載移至其它節(jié)點,此操作主要適用于節(jié)點維護(hù)場景,例如,節(jié)點OS不穩(wěn)定需要進(jìn)行排錯,為了避免影響上面的群集應(yīng)用,先把應(yīng)用飄走,再進(jìn)行排錯,或者需要關(guān)機(jī)加硬件配置,也可以先將節(jié)點置為暫停,應(yīng)用移走,關(guān)機(jī)加配置,加好之后再開機(jī)解除暫停狀態(tài),依次操作各節(jié)點


總結(jié)來說,暫停操作主要用于計劃內(nèi)維護(hù)場景,即是說,我們知道將要發(fā)生維護(hù)操作,節(jié)點將要不可用,那么我通過暫停操作,就可以以最小停機(jī)時間的方式把資源遷移走,再執(zhí)行維護(hù)


默認(rèn)情況下2012時×××始,暫停模式有兩個選擇,一為排出角色,二為不排出角色,排出角色為2012新功能,即按照放置策略將節(jié)點上面應(yīng)用放置到合適節(jié)點,不排出角色為2008舊選項,即只宣告節(jié)點為暫停,不接受資源遷移到本節(jié)點,上面資源不會被移走


排出角色,在2012時×××始,默認(rèn)情況下暫停節(jié)點針對于虛擬機(jī)執(zhí)行實時遷移操作,群集角色執(zhí)行在線移動操作,上篇文章老王曾經(jīng)講過,群集維護(hù),暫停模式可以和優(yōu)先級相整合,例如,節(jié)點暫停維護(hù),高和中優(yōu)先級虛擬機(jī)獲得實時遷移,低優(yōu)先級虛擬機(jī)獲得實時遷移,在資源不足的場景下,通過此配置,可以始終確保更主要的虛擬機(jī)獲得最高的可用性和遷移性能,參考老王博客 WSFC 維護(hù)模式操作粒度控制


說完暫停我們再來看下恢復(fù),恢復(fù)同暫停正好相對應(yīng),當(dāng)我們置為暫停,維護(hù)完成后,勢必需要節(jié)點重新正常提供服務(wù),在2008時代,恢復(fù)僅意味著解除節(jié)點的暫停狀態(tài),讓節(jié)點可以接受資源被遷移過來,2012之后此舊操作顯示為不故障回復(fù)角色。2012時×××始,恢復(fù)操作新增故障回復(fù)角色,恢復(fù)和暫停相互粘合,當(dāng)我們把節(jié)點置為暫停后,資源會被遷移至其它節(jié)點,當(dāng)節(jié)點完成后,我們可以選擇故障回復(fù)角色,讓被遷移走的資源回到原來的節(jié)點正常運(yùn)作,此暫停故障回復(fù),也參考放置策略,會考慮首選所有者,反相關(guān)性,可能所有者等策略,如果節(jié)點當(dāng)前正在首選所有者則不會回復(fù),如果節(jié)點上面已有反相關(guān)性資源則不會回復(fù),如果維護(hù)后原節(jié)點從資源的可能所有者剔除,則不會回復(fù)。


在一些場景下,開發(fā)人員或業(yè)務(wù)人員可能會對群集角色或虛擬機(jī)有所要求,例如某個資源只能在某個節(jié)點上面運(yùn)行,對于一些重要的資源,當(dāng)然還是穩(wěn)定為好,能在原來的節(jié)點運(yùn)作就繼續(xù)回到原來節(jié)點運(yùn)作,此場景下適用恢復(fù)角色功能,2012時×××始,大家作為群集管理員,只要有這種意識就好,計劃內(nèi)維護(hù),就點一下暫停節(jié)點,遷移角色,維護(hù)完成后點一下恢復(fù)節(jié)點,遷移回群集角色


WSFC 狀態(tài)操作指南




遠(yuǎn)程桌面其實也是個有用的功能,例如群集節(jié)點很多,可能16個節(jié)點,32個節(jié)點,群集管理員每天會打開群集管理器進(jìn)行配置,巡檢,如果發(fā)現(xiàn)節(jié)點有問題,可以直接在故障轉(zhuǎn)移管理器中對節(jié)點發(fā)起一個遠(yuǎn)程桌面,只要節(jié)點遠(yuǎn)程端口正常工作就可以直接遠(yuǎn)程過去

WSFC 狀態(tài)操作指南


信息詳細(xì)信息,主要顯示對于資源或節(jié)點執(zhí)行操作失敗,失敗的原因是什么


WSFC 狀態(tài)操作指南



顯示關(guān)鍵事件,主要用于聚合當(dāng)前節(jié)點或資源的關(guān)鍵事件,2008開始,群集對于大部分資源都會置備這種資源特定的事件管理器篩選,我們點擊某個節(jié)點,或某個資源,顯示關(guān)鍵事件,顯示的就是僅當(dāng)前節(jié)點或當(dāng)前資源的事件。


WSFC 狀態(tài)操作指南

針對于節(jié)點操作除了上述之外,還有一個更多操作,里面分別是啟動群集服務(wù),停止群集服務(wù),逐出節(jié)點

WSFC 狀態(tài)操作指南


啟動群集服務(wù),通常用于之前由于某些操作,例如要進(jìn)行排錯,手動停止了群集服務(wù),排錯完成后可以通過GUI啟動群集服務(wù),或通過命令行

net start clussvc啟動

停止群集服務(wù),也是用于一些特殊場景,正常情況下我們不需要用到它,例如群集應(yīng)用如果轉(zhuǎn)移到某個節(jié)點無法正常工作,我們可以通過取消可用所有者,或在這里停掉該節(jié)點的群集服務(wù),在WSFC 2016之前,群集服務(wù)的停止,即意味著故障轉(zhuǎn)移,如果一個節(jié)點的群集服務(wù)停止,下次運(yùn)行狀況檢測將報告該節(jié)點不可用,上面的所有應(yīng)用或虛擬機(jī)將執(zhí)行計劃外故障轉(zhuǎn)移操作。WSFC 2016開始,群集推出VM防瞬斷功能,可以防止瞬斷情況導(dǎo)致虛擬機(jī)快速遷移,例如如果是一個網(wǎng)絡(luò)瞬斷,或群集服務(wù)崩潰停止,只要在一定時間內(nèi)可以恢復(fù),則不會觸發(fā)快速遷移操作,因為快速遷移會為虛擬機(jī)帶來停機(jī)時間,如果您不需要VM瞬斷功能

關(guān)閉即可 (Get-Cluster).ResiliencyDefaultPeriod =0


逐出節(jié)點,則意味著將節(jié)點徹底從群集的可用節(jié)點中剔除,已逐出節(jié)點永遠(yuǎn)不建議再重新加入群集,逐出節(jié)點通常用于以下場景


重命名群集節(jié)點

用不同硬件替換節(jié)點

節(jié)點重新安裝操作系統(tǒng)

永久在群集中刪除節(jié)點


通常來說,逐出節(jié)點是一個簡單粗暴的解決問題方式,但它絕不是一個排錯的途徑,如果你能確認(rèn),就是因為這臺節(jié)點的OS不穩(wěn)定有問題,那么您可以把它從群集中逐出,新加一個節(jié)點進(jìn)來,或者逐出之后重做系統(tǒng),再以一個新的節(jié)點名稱加入進(jìn)來。


這種方式雖好,但有時并不能真正的解決問題,有時候我們以為是一個節(jié)點的問題,但其實是群集資源的問題,可能我們即便逐出了節(jié)點,再新加節(jié)點還是會遇到此問題,因此建議不輕易做逐出節(jié)點,除非我們判定問題原因,最后執(zhí)行逐出操作,還是應(yīng)該先對問題進(jìn)行判定分析


常見的逐出誤區(qū)


  1. 群集服務(wù)不能啟動,逐出了節(jié)點2,但是群集服務(wù)仍然不能啟動

  2. 資源不轉(zhuǎn)移到節(jié)點2,每次發(fā)生故障轉(zhuǎn)移時,磁盤都不會聯(lián)機(jī),無法返回到節(jié)點1,其中一個節(jié)點被逐出再添加一個節(jié)點仍然有此問題


一旦發(fā)生這種排錯情況,建議查看cluster.log及dump文件進(jìn)行分析,找到問題真正所在,也許根源是因為RHS死鎖或某個第三方軟件兼容性的問題,在真正判定問題之前不要輕易執(zhí)行逐出節(jié)點操作,否則排錯時可能無法完整重現(xiàn)問題


以上為GUI界面上針對于節(jié)點的所有操作,還有一些場景下的操作,幫助大家熟悉下流程


節(jié)點開關(guān)機(jī)

  1. 暫停節(jié)點 2.關(guān)閉操作系統(tǒng) 3.開機(jī)操作系統(tǒng) 4.恢復(fù)節(jié)點


以上為的群集節(jié)點開關(guān)機(jī)標(biāo)準(zhǔn)正常流程,還有一些意外情況,例如群集上面可能跑了一些特殊角色,開機(jī)后需要執(zhí)行一段程序,才可以正常跑群集角色,那這個步驟可以在第4個步驟前做掉


WSFC 2012R2開始,針對于群集虛擬機(jī)新增了一個屬性DrainOnshutdown

如果我們忘記執(zhí)行暫停節(jié)點,直接關(guān)閉虛擬機(jī),WSFC2012R2開始,會自動按照維護(hù)模式操作策略,幫助我們自動將虛擬機(jī)實時遷移或快速遷移至其它節(jié)點,群集其它角色則采用移動掛起操作,所有資源都移走后,操作系統(tǒng)才正常完成關(guān)閉操作,該功能也被稱為懶人幫手,一旦我們忘了暫停節(jié)點,背后也會有一個這樣的幫手,幫助我們?nèi)ネ瓿删S護(hù)操作。


節(jié)點故障轉(zhuǎn)移

1.節(jié)點宕機(jī) 2.其它節(jié)點檢測注冊表 掛載共享存儲聯(lián)機(jī)上線 3.節(jié)點恢復(fù) 4.故障回復(fù)群集角色

WSFC 狀態(tài)操作指南

對于群集故障轉(zhuǎn)移,這里特別要說的是故障回復(fù),這是個老古董了,從2003時代就看到它,故障回復(fù)必須和首選所有者功能相配合,這點和最初一模一樣,即是說如果應(yīng)用當(dāng)前在節(jié)點1,節(jié)點1宕機(jī),應(yīng)用去節(jié)點2,如果希望節(jié)點1恢復(fù)后應(yīng)用回到節(jié)點1,則應(yīng)用必須設(shè)置首選所有者為節(jié)點1,故障回復(fù)操作可以為立即或某一時刻,如果應(yīng)用對于宿主有要求,需要始終在某一節(jié)點運(yùn)作,可以配置故障回復(fù),以便在計劃外故障轉(zhuǎn)移后故障回復(fù),2008時代對于虛擬機(jī)故障回復(fù)采用快速遷移,2012時×××始故障回復(fù)采用實時遷移。


看過節(jié)點級別的操作后,我們再來看下群集級別的操作,老王將主要介紹以下操作

WSFC 狀態(tài)操作指南

關(guān)閉連接,無實際操作效果,點擊關(guān)閉連接后,只是在當(dāng)前故障轉(zhuǎn)移群集管理器中,刪除顯示已連接的群集,假設(shè)這時一個群集節(jié)點,會有不懂的人來碰你的群集,那么為了避免它誤操作,你可以在他操作之前關(guān)閉群集連接

WSFC 狀態(tài)操作指南

關(guān)閉連接之后,如果再想連接到群集,點擊連接到群集即可

WSFC 狀態(tài)操作指南

關(guān)閉群集,停止所有群集角色,關(guān)閉所有群集節(jié)點的群集服務(wù),如果群集中有很多節(jié)點,可以通過此操作幫助我們關(guān)閉全部,關(guān)閉后群集對外不可用,如果希望群集各節(jié)點暫時失去群集作用可以執(zhí)行此操作

WSFC 狀態(tài)操作指南


針對于虛擬機(jī)群集資源,自2008開始,可以設(shè)置虛擬機(jī)在群集關(guān)閉的情況下要執(zhí)行的操作,默認(rèn)為保存虛擬機(jī)



數(shù)值
效果
0
VM直接斷電
1(默認(rèn))VM保存
2
VMOS正常關(guān)機(jī)
3VMOS強(qiáng)行正常關(guān)機(jī)



Get-ClusterResource "虛擬機(jī)資源群集名稱" | Set-ClusterParameter OfflineAction 2

WSFC 狀態(tài)操作指南

若要恢復(fù)群集工作,點擊啟動群集即可,群集虛擬機(jī)默認(rèn)會從保存狀態(tài)中還原,群集角色會從脫機(jī)中聯(lián)機(jī)

WSFC 狀態(tài)操作指南

銷毀群集,拆掉整個群集,刪除掉群集所有角色和元數(shù)據(jù)信息,通常用于測試環(huán)境,或重新部署群集,和關(guān)閉群集一樣,輕易不建議使用,一旦群集被銷毀后,如果需要在該節(jié)點再次搭建群集,有時需重新安裝群集功能

WSFC 狀態(tài)操作指南

在執(zhí)行銷毀群集之前,請確保群集所有角色已被刪除,虛擬機(jī)已經(jīng)導(dǎo)出到其它位置,需要注意,在銷毀群集過程,虛擬機(jī)如果是存放在共享磁盤和CSV,則會被徹底關(guān)閉,但不會丟失數(shù)據(jù),虛擬機(jī)的數(shù)據(jù)會存放在CSV中,重建群集之后,虛擬機(jī)可以被重新掛載上線,但是銷毀后,重建前,虛擬機(jī)將不可用。


如果銷毀群集時,群集內(nèi)仍有未被刪除的虛擬機(jī)或角色,將提示以下錯誤

WSFC 狀態(tài)操作指南


關(guān)于銷毀群集的注意事項


  1. 銷毀群集時所有節(jié)點需要在線,如果銷毀群集時有1節(jié)點不在線,隨后該節(jié)點又加入其它群集,將顯示該節(jié)點已屬于其它群集,這時需在節(jié)點上執(zhí)行命令

    cluster node hv01 /forcecleanup

    這將在該節(jié)點上面清理掉所有群集舊信息的注冊表,以允許群集加入新的群集

  2. 銷毀群集過程幕后會逐出節(jié)點群集資格,刪除各節(jié)點上關(guān)于群集的配置信息注冊表,如果銷毀群集后希望重建群集,重建不成功,請嘗試檢查注冊表配置單元,看是否有殘留舊群集信息,如果有,請清理后再嘗試重建群集。

  3. 銷毀之后群集CNO默認(rèn)在AD中處于禁用狀態(tài),如果希望銷毀群集后直接從AD刪除CNO,可使用PowerShell操作

    Remove-Cluster -CleanupAD



移動群集核心資源


群集中的資源大體可分為兩種,一種為群集運(yùn)作資源,一種為基于群集的應(yīng)用資源,核心資源也是指群集運(yùn)作資源,一個群集要想運(yùn)作起來,需要群集名稱,群集IP,還會有見證資源,在WSFC 2016之前,大體就是這些內(nèi)容,這些群集運(yùn)作資源也被放置在一個群集資源組里面,成為核心資源組,群集過程中會被放置在其中一個群集節(jié)點上,我們可以通過圖形界面移動核心資源組至其它群集節(jié)點,2012之前僅能通過命令執(zhí)行,2012之后支持GUI界面執(zhí)行,2008時×××始群集核心資源組會被單獨放置在RHS監(jiān)視進(jìn)程中,放置因為群集其它資源的RHS進(jìn)程崩潰,而影響整個群集。


群集核心資源通常我們沒必要管它,除非是排錯時會需要移動,或考慮到群集負(fù)載平衡的場景,如果一個節(jié)點承載了很多應(yīng)用,則可以把它上面的核心資源移動至其他節(jié)點以減輕負(fù)擔(dān)


WSFC 2016中,群集核心組多出存儲QOS資源和 Virtual Machine Cluster WMI


2012之前,使用命令移動群集核心資源

cluster group “Cluster Group” /Move:NodeName


移動群集可用存儲資源

cluster group “Available Storage” /move


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI