溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Oracle Cluster Health Monitor(CHM)簡介

發(fā)布時間:2020-07-15 17:02:24 來源:網(wǎng)絡 閱讀:697 作者:dbstats 欄目:關(guān)系型數(shù)據(jù)庫

 Oracle Cluster Health Monitor(CHM)簡介 

概述

Cluster Health Monitor(以下簡稱CHM)是一個Oracle提供的工具,用來自動收集操作系統(tǒng)的資源(CPU、內(nèi)存、SWAP、進程、I/O以及網(wǎng)絡等)的使用情況。CHM會每秒收集一次數(shù)據(jù)。

   這些系統(tǒng)資源數(shù)據(jù)對于診斷集群系統(tǒng)的節(jié)點重啟、Hang、實例驅(qū)逐(Eviction)、性能問題等是非常有幫助的。另外,用戶可以使用CHM來及早發(fā)現(xiàn)一些系統(tǒng)負載高、內(nèi)存異常等問題,從而避免產(chǎn)生更嚴重的問題。

 

CHM會自動安裝在下面的軟件:

11.2.0.2 及更高版本的 OracleGrid Infrastructure for Linux (不包括Linux Itanium) Solaris (Sparc 64 x86-64)

 11.2.0.3 及更高版本 OracleGrid Infrastructure for AIX 、 Windows (不包括Windows Itanium)

 

    在集群中,可以通過下面的命令查看CHM對應的資源(ora.crf)的狀態(tài):

$ crsctl stat res -t -init

[root@testrac2 bin]# ./crsctl stat resora.crf -init

NAME=ora.crf

TYPE=ora.crf.type

TARGET=ONLINE

STATE=ONLINE on testrac2

CHM主要包括兩個服務:

    1).System Monitor Service(osysmond):這個服務在所有節(jié)點都會運行,osysmond會將每個節(jié)點的資源使用情況發(fā)送給cluster logger service,后者將會把所有節(jié)點的信息都接收并保存到CHM的資料庫。

      $ps -ef|grep osysmond
       root      7984     1  0Jun05 ?        01:16:14/u01/app/11.2.0/grid/bin/osysmond.bin

    2).Cluster Logger Service(ologgerd):在一個集群中的,ologgerd 會有一個主機點(master),還有一個備節(jié)點(standby)。當ologgerd在當前的節(jié)點遇到問題無法啟動后,它會在備用節(jié)點啟用。

     主節(jié)點:
     $ ps -ef|grep ologgerd
       root      8257     1  0Jun05 ?        00:38:26/u01/app/11.2.0/grid/bin/ologgerd -M -d      /u01/app/11.2.0/grid/crf/db/rac2

     備節(jié)點:
      $ ps -ef|grep ologgerd
       root      8353     1  0Jun05 ?        00:18:47/u01/app/11.2.0/grid/bin/ologgerd -m rac2 -r -d
/u01/app/11.2.0/grid/crf/db/rac1

CHM Repository:用于存放收集到數(shù)據(jù),默認情況下,會存在于Grid Infrastructure home ,需要1 GB 的磁盤空間,每個節(jié)點大約每天會占用0.5GB的空間。您可以使用OCLUMON來調(diào)整它的存放路徑以及允許的空間大小(最多只能保存3天的數(shù)據(jù))。

查看當前設置

下面的命令用來查看它當前設置:
     $ oclumon manage -get reppath
       CHM Repository Path =/u01/app/11.2.0/grid/crf/db/rac2
       Done

     $ oclumon manage -get repsize
       CHM Repository Size = 68082 <====單位為秒
       Done
修改設置

 修改路徑:

$ oclumon manage -repos reploc/shared/oracle/chm
     修改大?。?/span>

$ oclumon manage -repos resize 68083 <==3600(小時) 259200(3)之間
      rac1 --> retention check successful
      New retention is 68083 and will use1073750609 bytes of disk space
      CRS-9115-Cluster Health Monitor repositorysize change completed on all nodes.
      Done

獲得CHM生成的數(shù)據(jù)的方法

     1. 一種是使用Grid_home/bin/diagcollection.pl
        1). 首先,確定clusterlogger service的主節(jié)點:
         $ oclumon manage -getmaster
         Master = rac2

        2).root身份在主節(jié)點rac2執(zhí)行下面的命令:
         # /bin/diagcollection.pl-collect -chmos -incidenttime inc_time -incidentduration duration
         inc_time是指從什么時間開始獲得數(shù)據(jù),格式為MM/DD/YYYY24HH:MM:SS, duration指的是獲得開始時間后多長時間的數(shù)據(jù)。

         比如:#diagcollection.pl-collect -crshome /u01/app/11.2.0/grid-chmoshome  /u01/app/11.2.0/grid -chmos -incidenttime06/15/201215:30:00 -incidentduration 00:05

       3).運行這個命令之后,CHM的數(shù)據(jù)會生成在文件chmosData_rac2_20120615_1537.tar.gz。

    2. 另外一種獲得CHM生成的數(shù)據(jù)的方法為oclumon:
 $oclumon dumpnodeview [[-allnodes] | [-n node1 node2] [-last"duration"] | [-s "time_stamp" -e "time_stamp"][-v] [-warning]] [-h]

        -s表示開始時間,-e表示結(jié)束時間
       $ oclumon dumpnodeview -allnodes -v-s "2012-06-15 07:40:00" -e "2012-06-15 07:57:00" >/tmp/chm1.txt

       $ oclumon dumpnodeview -n node1 node2node3 -last "12:00:00" >/tmp/chm1.txt
       $ oclumon dumpnodeview -allnodes-last "00:15:00" >/tmp/chm1.txt


下面是/tmp/chm1.txt中的部分內(nèi)容:
----------------------------------------
Node: rac1 Clock: '06-15-12 07.40.01' SerialNo:168880
----------------------------------------

SYSTEM:
#cpus: 1 cpu: 17.96 cpuq: 5 physmemfree: 32240 physmemtotal: 2065856 mcache:1064024 swapfree: 3988376 swaptotal: 4192956 ior: 57 io
w: 59 ios: 10 swpin: 0 swpout: 0 pgin: 57 pgout: 59 netr: 65.767 netw: 34.871 procs:183 rtprocs: 10 #fds: 4902 #sysfdlimit: 6815744
 #disks: 4 #nics: 3  nicErrors: 0

TOP CONSUMERS:
topcpu: 'mrtg(32385) 64.70' topprivmem: 'ologgerd(8353) 84068' topshm:'oracle(8760) 329452' topfd: 'ohasd.bin(6627) 720' topthread:
 'crsd.bin(8235) 44'

PROCESSES:

name: 'mrtg' pid: 32385 #procfdlimit: 65536 cpuusage: 64.70 privmem: 1160 shm:1584 #fd: 5 #threads: 1 priority: 20 nice: 0
name: 'oracle' pid: 32381 #procfdlimit: 65536 cpuusage: 0.29 privmem: 1456 shm:12444 #fd: 32 #threads: 1 priority: 15 nice: 0
...
name: 'oracle' pid: 8756 #procfdlimit: 65536 cpuusage: 0.0 privmem: 2892 shm:24356 #fd: 47 #threads: 1 priority: 16 nice: 0

----------------------------------------
Node: rac2 Clock: '06-15-12 07.40.02' SerialNo:168878
----------------------------------------

SYSTEM:
#cpus: 1 cpu: 40.72 cpuq: 8 physmemfree: 34072 physmemtotal: 2065856 mcache:1005636 swapfree: 3991808 swaptotal: 4192956 ior: 54 io
w: 104 ios: 11 swpin: 0 swpout: 0 pgin: 54 pgout: 104 netr: 77.817 netw: 33.008procs: 178 rtprocs: 10 #fds: 4948 #sysfdlimit: 68157
44 #disks: 4 #nics: 4  nicErrors: 0

TOP CONSUMERS:
topcpu: 'orarootagent.bi(8490) 1.59' topprivmem: 'ologgerd(8257) 83108' topshm:'oracle(8873) 324868' topfd: 'ohasd.bin(6744) 720' t
opthread: 'crsd.bin(8362) 47'

PROCESSES:

name: 'oracle' pid: 9040 #procfdlimit: 65536 cpuusage: 0.19 privmem: 6040 shm:121712 #fd: 33 #threads: 1 priority: 16 nice: 0
...


  關(guān)于CHM的更多解釋,請參考Oracle官方文檔:
  http://docs.oracle.com/cd/E11882_01/rac.112/e16794/troubleshoot.htm#CWADD92242
  Oracle Clusterware Administration and Deployment Guide
  11g Release 2 (11.2)
  Part Number E16794-17

  或者 My Oracle Support文檔:
  Cluster Health Monitor (CHM) FAQ (Doc ID 1328466.1)

 


向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI