溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

ASM 翻譯系列第十一彈:高級(jí)知識(shí) Offline or drop?

發(fā)布時(shí)間:2020-08-06 20:22:14 來源:ITPUB博客 閱讀:203 作者:shilei1 欄目:關(guān)系型數(shù)據(jù)庫(kù)

原作者:Bane Radulovic

譯者:    莊培培

審核:    魏興華  沃趣科技

DBGeeK社群聯(lián)合出品




Offline or drop?
當(dāng)一個(gè)ASM磁盤不可用時(shí),ASM會(huì)把它從磁盤組里移除,對(duì)嗎?要看情況,通常取決于ASM版本和磁盤組的冗余級(jí)別。因?yàn)橐粋€(gè)external冗余的磁盤組會(huì)直接被dismount,所以主要關(guān)注normal和high冗余磁盤組的情況。ASM 10g版本,磁盤會(huì)被直接drop。從11gR1,一個(gè)磁盤不可用時(shí)會(huì)先被offline,此時(shí)disk repair計(jì)時(shí)器開始介入,如果計(jì)時(shí)器達(dá)到磁盤組DISK_REPAIR_TIME 屬性值時(shí),這個(gè)磁盤會(huì)從所屬的磁盤組中drop掉。如果這個(gè)磁盤在計(jì)時(shí)器過期前恢復(fù)可用,那么它的狀態(tài)會(huì)變回online,不會(huì)被drop。但是ASM是如何發(fā)現(xiàn)磁盤恢復(fù)可用又有什么機(jī)制將它恢復(fù)online呢?

Unavailable
當(dāng)一個(gè)磁盤不能被ASM或者ASM客戶端讀或?qū)憰r(shí),會(huì)被認(rèn)為不可用。數(shù)據(jù)庫(kù)是一種典型的ASM客戶端,但ASM客戶端并不只限于是數(shù)據(jù)庫(kù)。磁盤會(huì)因?yàn)楦鞣N原因變成不可用,本地硬盤的SCSI線纜受損,存儲(chǔ)的SAN交換機(jī)或者網(wǎng)絡(luò)故障,NFS空間的服務(wù)器故障,雙活場(chǎng)景的站點(diǎn)故障,又或是磁盤本身故障等各種場(chǎng)景。無論是哪種情況,ASM或者是ASM客戶端會(huì)報(bào)IO錯(cuò)誤,然后ASM會(huì)進(jìn)行相應(yīng)的處理。

Drop
在ASM 10G時(shí),ASM會(huì)立即Drop變成不可用的磁盤。這會(huì)觸發(fā)一個(gè)嘗試恢復(fù)數(shù)據(jù)冗余的重平衡操作。一旦重平衡過程完成,數(shù)據(jù)冗余度會(huì)恢復(fù),同時(shí)磁盤會(huì)被移除出磁盤組。一旦磁盤不可用的故障被解決,可以通過alter diskgroup命令將磁盤重新添加回磁盤組。 例如:alter diskgroup DATA add disk 'ORCL: DISK077'; 這又會(huì)再次觸發(fā)一個(gè)重平衡操作,一旦重平衡過程完成,磁盤會(huì)恢復(fù)成為磁盤組成員。 但是如果多個(gè)磁盤同時(shí)發(fā)生故障,又或者一個(gè)磁盤故障在重平衡過程中又有磁盤故障會(huì)導(dǎo)致什么結(jié)果?這取決于多個(gè)因素,磁盤組的冗余度、磁盤是否來自于相同或不同的failgroup和故障磁盤是否是partner關(guān)系。 在一個(gè)normal冗余級(jí)別的磁盤組,ASM能容忍來自于一個(gè)failgroup中的一塊或者多塊,甚至是全部的磁盤故障。如果來自于不同的failgroup的磁盤變成不可用,僅當(dāng)它們之間不存在partner關(guān)系時(shí),ASM才能容忍。 這里提到的“容忍"的具體含義是指磁盤組能繼續(xù)online同時(shí)ASM客戶端訪問不受影響。 在一個(gè)high冗余級(jí)別的磁盤組,ASM能容忍僅來自于兩個(gè)failgroup中的一塊或者多塊,甚至是全部的磁盤故障。如果來自于兩個(gè)以上failgroup的磁盤變成不可用,partner關(guān)系規(guī)則仍然有效?;旧?,ASM能容忍任意數(shù)量的磁盤變成不可用,只要它們之間不存在partner關(guān)系時(shí)。

Offline
當(dāng)一個(gè)磁盤被drop,整個(gè)磁盤組需要為此進(jìn)行rebalance,整個(gè)過程需要耗費(fèi)大量的時(shí)間。在此期間,其他磁盤也可能會(huì)發(fā)生故障,使得數(shù)據(jù)丟失的風(fēng)險(xiǎn)大大增加。為解決這個(gè)問題,在11gR1開始,ASM引入了fast disk resync特性。ASM不再立即drop不可用的磁盤,而是先置為offline狀態(tài)。這樣做的意義是能讓ASM管理員被告知有磁盤發(fā)生故障后在disk repair time計(jì)時(shí)器到達(dá)閾值前修復(fù)故障。 默認(rèn)的disk repair計(jì)時(shí)器閾值是3.6小時(shí)。這個(gè)閾值是可以通過alter diskgroup命令來調(diào)整的,假設(shè)要設(shè)置為12小時(shí),命令如下:alter diskgroup DATA set attribute 'DISK_REPAIR_TIME' = '12h'; 在磁盤處于offline的這段時(shí)間里,ASM持續(xù)跟蹤需要在offline磁盤上做的修改操作。如果磁盤在計(jì)時(shí)器到達(dá)閾值前恢復(fù)可用并且恢復(fù)到online狀態(tài),那么ASM會(huì)將這些修改操作應(yīng)用到磁盤上去。這就是fast disk resync特性的具體用途。 如果導(dǎo)致磁盤離線的故障不能解決,在計(jì)時(shí)器到達(dá)閾值后,磁盤會(huì)從磁盤組中被drop掉。

Online
當(dāng)一個(gè)系統(tǒng)管理員或者ASM管理員修復(fù)了導(dǎo)致磁盤不可用的故障后(可能是更換了某條故障的線纜),接下來該怎么做能讓磁盤恢復(fù)online狀態(tài)?這個(gè)過程能否能自動(dòng)呢? 答案同樣也是看情況。如果是Exadata或者是Oracle Database Appliance,磁盤會(huì)被自動(dòng)online。其他情況是ASM管理員需要通過alter diskgroup命令將磁盤恢復(fù)為online狀態(tài)。 例如: alter diskgroup DATA online disk 'ORCL: DISK077'; 或者 alter diskgroup DATA online all;

Conclusion
知道在不同的故障場(chǎng)景下會(huì)發(fā)生什么事情是這件非常有價(jià)值的事情,比如:目前使用的ASM版本分別能做什么和不能做什么,當(dāng)前使用的磁盤組冗余度能提供什么樣的保護(hù)級(jí)別。關(guān)于譯者莊培培,沃趣科技數(shù)據(jù)庫(kù)售前工程師,主要負(fù)責(zé)數(shù)據(jù)庫(kù)平臺(tái)架構(gòu)方案設(shè)計(jì)、產(chǎn)品驗(yàn)證測(cè)試。
向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI