溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

RAC中一節(jié)點(diǎn)無法啟動解決步驟

發(fā)布時間:2020-08-01 07:19:10 來源:網(wǎng)絡(luò) 閱讀:11960 作者:hbxztc 欄目:關(guān)系型數(shù)據(jù)庫

問題現(xiàn)象:一套兩節(jié)點(diǎn)的RAC集群,其中節(jié)點(diǎn)2集群無法啟動,ohas進(jìn)程已經(jīng)啟動但CRS、CSS進(jìn)程未啟動

1、首先查看

查看RAC中的alert日志,發(fā)現(xiàn)日志中一直在報如下報錯:

file rotation terminated. log file: "/app/11.2.0.4/grid/log/uatdb02/client/olsnodes.log"

RAC中一節(jié)點(diǎn)無法啟動解決步驟

從日志中可以看到提示說olsnodes.l03owner不是oracle

查看后發(fā)現(xiàn)確實(shí)用戶屬主有屬組有問題

RAC中一節(jié)點(diǎn)無法啟動解決步驟

修改文件屬主和屬組

chown root:root olsnodes.l03

修改后olsnodes.log可以被正常切割,alert日志也不再報這個錯。但報錯也就停止。沒有日志如何繼續(xù)往下查?

2、檢查RAC的一些配置情況,由于對于RAC也只限于能夠根據(jù)文檔搭建成功,沒有太多問題處理經(jīng)驗(yàn)只能一邊查問題一邊查文檔和MOS

先檢查RACASM配置情況

RAC中一節(jié)點(diǎn)無法啟動解決步驟

發(fā)現(xiàn)與以往搭建的RAC查看disk path輸出的內(nèi)容不同,于是想到是使用asmlib搭建的RAC

rpm -qa |grpe asm發(fā)現(xiàn)確實(shí)安裝了相關(guān)包,說明推測方向正確

RAC中一節(jié)點(diǎn)無法啟動解決步驟

以前都是通過UDEV的方式配置RAC的ASM共享磁盤,asmlib的方式?jīng)]有用過。于是從網(wǎng)上找了相關(guān)的帖子查看,并找到一些命令。

oracleasm scandisks

oracleasm listdisks

但是知道這些命令還是沒有辦法解決問題。

嘗試執(zhí)行上面的命令看看輸出結(jié)果

發(fā)現(xiàn)在scandisks時出現(xiàn)permission denied on OCR1的提示

于是感覺有了一個方向,是不是共享盤的權(quán)限訪問導(dǎo)致的呢

找到共享盤的目錄/dev/oracleasm/disks查看

RAC中一節(jié)點(diǎn)無法啟動解決步驟

節(jié)點(diǎn)2屬主和屬組都是root,如果是權(quán)限有問題,那正確的權(quán)限有又該是什么呢,好在節(jié)點(diǎn)1還在正常的跑著,查看節(jié)點(diǎn)1 的共享磁盤

RAC中一節(jié)點(diǎn)無法啟動解決步驟

從上面的查看來看,正常結(jié)點(diǎn)的屬主為grid,屬組為asmadmin,是不是由于這個原因?qū)е录簾o法啟動的呢?

嘗試手動修改節(jié)點(diǎn)2的屬主和屬組

RAC中一節(jié)點(diǎn)無法啟動解決步驟

這里漏掉了對權(quán)限做修改。。。

修改后嘗試重啟節(jié)點(diǎn)2的集群

crsctl start crs

報錯提示ohas已啟動,crs啟動失敗

仔細(xì)閱讀crsctl start使用說明才發(fā)現(xiàn)start crs是啟動OHAS的命令,start cluster 才是啟動CRS的命令??磥磉€是對RAC的了解不夠深入呀。。。

RAC中一節(jié)點(diǎn)無法啟動解決步驟

再次嘗試啟動節(jié)點(diǎn)2集群

RAC中一節(jié)點(diǎn)無法啟動解決步驟

提示cssd啟動失敗,從alert日志中也可以看到如下報錯

RAC中一節(jié)點(diǎn)無法啟動解決步驟

于是查看ocss.log

RAC中一節(jié)點(diǎn)無法啟動解決步驟

ocss日志中輸出的報錯可以看出來是無法找到vote disk,集群自然是無法啟動的。

但是為什么找不到磁盤,原因還不知道。于是救助于MOS,但查了十幾篇有相關(guān)關(guān)鍵字的文檔,與這里的問題又不太相似。也沒有可用的解決辦法。

于是問題限入了僵局。

下班時間到了,第二天接著搞。

第二天登錄機(jī)器再次嘗試crsctl start cluster(明知沒有,但還是想試一下,僥幸心理。。)

果然沒有辜負(fù)我,依然報錯找不到vote disk。

MOS文檔查到一些相關(guān)命令

crsctl query css votedisk

在節(jié)點(diǎn)2中無輸出內(nèi)容,節(jié)點(diǎn)1有。

kfod status=TRUE asm_diskstring='/dev/oracleasm/disks/*' disks=ALL

節(jié)點(diǎn)1很快能返回

RAC中一節(jié)點(diǎn)無法啟動解決步驟

但節(jié)點(diǎn)2hang

RAC中一節(jié)點(diǎn)無法啟動解決步驟

而且可以看到節(jié)點(diǎn)2的共享盤,權(quán)限又變回root了,于是又再次手動修改,(心想也不能每次重啟機(jī)器都手動修改這個吧)。

RAC中一節(jié)點(diǎn)無法啟動解決步驟

再次執(zhí)行上面的命令

RAC中一節(jié)點(diǎn)無法啟動解決步驟

出現(xiàn)有報錯。

突然想到是不是兩個節(jié)點(diǎn)的asmlib的配置不同導(dǎo)致的,由于對asmlib不熟悉,從網(wǎng)上帖子上看到的都是配置asmlib的,不知道如何查看配置

嘗試執(zhí)行oracleasm configure,發(fā)現(xiàn)兩個節(jié)點(diǎn)的配置確認(rèn)不一致

RAC中一節(jié)點(diǎn)無法啟動解決步驟

RAC中一節(jié)點(diǎn)無法啟動解決步驟

ORACLEASM_UID GID配置有問題

于是進(jìn)行修改

RAC中一節(jié)點(diǎn)無法啟動解決步驟

查看狀態(tài)

RAC中一節(jié)點(diǎn)無法啟動解決步驟

修改完成,在scandisks時沒有提示permission denied,感覺應(yīng)該沒有問題了

再次嘗試啟動crs

crsctl start cluster

啟動成功

RAC中一節(jié)點(diǎn)無法啟動解決步驟

RAC中一節(jié)點(diǎn)無法啟動解決步驟

至此集群問題解決。但從狀態(tài)來看這套RAC集群還是存在很多的問題。

總結(jié):加深對RAC的理解,各組件的作用。各命令的含義。


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI