溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何進(jìn)行rac節(jié)點(diǎn)頻繁重啟的問(wèn)題分析

發(fā)布時(shí)間:2021-12-30 16:54:10 來(lái)源:億速云 閱讀:147 作者:柒染 欄目:云計(jì)算

如何進(jìn)行rac節(jié)點(diǎn)頻繁重啟的問(wèn)題分析,相信很多沒(méi)有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。

環(huán)境:兩臺(tái)聯(lián)想R680的物理機(jī)搭建一套2節(jié)點(diǎn)RAC,數(shù)據(jù)庫(kù)版本為ORACLE 11.2.0.4

一、故障問(wèn)題現(xiàn)象:
節(jié)點(diǎn)2頻繁發(fā)生重啟,從1月至2月發(fā)生多次重啟,甚至一天內(nèi)3次重啟,讓人頭疼。

二、問(wèn)題分析處理過(guò)程:

1、時(shí)間同步問(wèn)題
首先懷疑是時(shí)間不同步造成的。
觀察現(xiàn)象是該服務(wù)器的ntp時(shí)間同步offset過(guò)大

并在數(shù)據(jù)庫(kù)的CTSS日志出現(xiàn)不正常的返回值

在這里發(fā)現(xiàn)一個(gè)問(wèn)題,就是時(shí)間源指向舊的時(shí)間源服務(wù)器,而服務(wù)器在新的數(shù)據(jù)中心,所以修改為新數(shù)據(jù)中心的時(shí)間源服務(wù)器并修改了BIOS時(shí)鐘,使系統(tǒng)時(shí)鐘和硬件時(shí)鐘時(shí)間一致。至此,時(shí)間同步問(wèn)題排除。

2、數(shù)據(jù)庫(kù)日志反應(yīng)的問(wèn)題

通過(guò)查ALERT日志,發(fā)現(xiàn)有節(jié)點(diǎn)驅(qū)逐

又查CSSD日志發(fā)現(xiàn)

顯示有磁盤的心跳,但無(wú)網(wǎng)絡(luò)的心跳。

此時(shí)判斷:node 2 節(jié)點(diǎn)老是頻繁重啟,私網(wǎng)出問(wèn)題的概率會(huì)較大,因此從網(wǎng)絡(luò)處查。node 2 每次重啟完以后,都能順利加入rac集群,更不是時(shí)間同步的問(wèn)題。 

補(bǔ)充:

如果集群中的節(jié)點(diǎn)連續(xù)丟失磁盤心跳或網(wǎng)絡(luò)心跳,該節(jié)點(diǎn)就會(huì)被從集群中驅(qū)逐,也就是節(jié)點(diǎn)重啟。組管理導(dǎo)致的節(jié)點(diǎn)重啟,我們稱之為node kill escalation(只有在11gR1以及以上版本適用)。重啟需要在指定的時(shí)間(reboot time,一般為3秒)內(nèi)完成。

網(wǎng)絡(luò)心跳:ocssd.bin進(jìn)程每秒鐘向集群中的各個(gè)節(jié)點(diǎn)通過(guò)私網(wǎng)發(fā)送網(wǎng)絡(luò)心跳信息,以確認(rèn)各個(gè)節(jié)點(diǎn)是否正常。如果某個(gè)節(jié)點(diǎn)連續(xù)丟失網(wǎng)絡(luò)心跳達(dá)到閥值,misscount(默認(rèn)為30秒,如果存在其他集群管理軟件則為600秒),集群會(huì)通過(guò)表決盤進(jìn)行投票,使丟失網(wǎng)絡(luò)心跳的節(jié)點(diǎn)被主節(jié)點(diǎn)驅(qū)逐出集群,即節(jié)點(diǎn)重啟。如果集群只包含2個(gè)節(jié)點(diǎn),則會(huì)出現(xiàn)腦裂,結(jié)果是節(jié)點(diǎn)號(hào)小的節(jié)點(diǎn)存活下來(lái),即使是節(jié)點(diǎn)號(hào)小的節(jié)點(diǎn)存在網(wǎng)絡(luò)問(wèn)題。

磁盤心跳:ocssd.bin進(jìn)程每秒鐘都會(huì)向所有表決盤(Voting File)注冊(cè)本節(jié)點(diǎn)的狀態(tài)信息,這個(gè)過(guò)程叫做磁盤心跳。如果某個(gè)節(jié)點(diǎn)連續(xù)丟失磁盤心跳達(dá)到閥值disk timeou(一般為200秒),則該節(jié)點(diǎn)會(huì)自動(dòng)重啟以保證集群的一致性。另外,CRS只要求[N/2]+1個(gè)表決盤可用即可,其中N為表決盤數(shù)量,一般為奇數(shù)。

3、核查網(wǎng)絡(luò)的問(wèn)題

這套R(shí)AC的心跳網(wǎng)是由ETH13和ETH15兩塊網(wǎng)卡組成,對(duì)應(yīng)兩個(gè)交換機(jī)的兩個(gè)端口。

先后采取激活宕掉交換機(jī)兩個(gè)端口和網(wǎng)卡口沒(méi)有解決問(wèn)題,最后又采用換線、單獨(dú)拉線等解決辦法,發(fā)現(xiàn)線的光衰有點(diǎn)大,但重啟問(wèn)題沒(méi)有最終解決。

4、是否是硬件的問(wèn)題?

問(wèn)題至此陷入了困境,換個(gè)思路既然網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)都可能不是問(wèn)題,那么硬件真的能獨(dú)善其身,超然之外么?

答案是否定的,那就是硬件的問(wèn)題。

在節(jié)點(diǎn)發(fā)生重啟時(shí),數(shù)據(jù)庫(kù)的日志里有中斷的現(xiàn)象,那么會(huì)不會(huì)是CPU和內(nèi)存的問(wèn)題呢?檢查下MCELOG日志就知道了。

MCELOG不容忽視的日志

mcelog 是 x86 的 Linux 系統(tǒng)上用來(lái)檢查硬件錯(cuò)誤,特別是內(nèi)存和CPU錯(cuò)誤的工具。它的日志就是MCELOG.

一般來(lái)說(shuō)大內(nèi)存的服務(wù)器容易出現(xiàn)內(nèi)存上的問(wèn)題,現(xiàn)在內(nèi)存控制器都是集成在cpu里,內(nèi)存的校驗(yàn)錯(cuò)誤和CPU的問(wèn)題易引起服務(wù)器的重啟。

至此,問(wèn)題浮出水面。和硬件廠商聯(lián)系,刷主板固件程序,更換一根內(nèi)存后問(wèn)題最終解決。

三、問(wèn)題總結(jié)與思考:

1、不能忽視監(jiān)控的作用。這次內(nèi)存硬件的問(wèn)題,在服務(wù)器硬件監(jiān)控平臺(tái)沒(méi)有被發(fā)現(xiàn),這個(gè)需要聯(lián)系廠商,繼續(xù)完善服務(wù)器硬件監(jiān)控的細(xì)粒度和敏感性

2、從日志、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、系統(tǒng)、硬件等方面全面排查,問(wèn)題終會(huì)被發(fā)現(xiàn)。

3、解決問(wèn)題靠的是耐心和細(xì)心,進(jìn)一步再進(jìn)一步,問(wèn)題終會(huì)被解決。

看完上述內(nèi)容,你們掌握如何進(jìn)行rac節(jié)點(diǎn)頻繁重啟的問(wèn)題分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

rac
AI