您好,登錄后才能下訂單哦!
這篇文章給大家介紹保持RAC群集環(huán)境穩(wěn)定當(dāng)前必須要做的11件事分別是哪些,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
保持 RAC 群集環(huán)境穩(wěn)定當(dāng)前必須要做的 11 件事 [ID 1525819.1]
In this Document
Purpose |
Scope |
Details |
1. 在您的環(huán)境中應(yīng)用最新的 Patchset Update (PSU) |
2. 確保 UDP 緩沖區(qū)大小合適 |
3. 在所有版本 10.2 和 11.1 集群上將 DIAGWAIT 的值設(shè)置為 13 |
4. 在 Linux 環(huán)境中實(shí)施 HugePage |
5. 實(shí)施 OS Watcher 和(或) Cluster Health Monitor |
6. 按照最佳實(shí)踐配置 OS 設(shè)置 |
7. 確保在 AIX 平臺(tái)上應(yīng)用合適的 APARS 以避免出現(xiàn)過量分頁/交換問題 |
8. 應(yīng)用 NUMA 補(bǔ)丁 |
9. 增加 Windows 非交互式 Desktop Heap |
10. 運(yùn)行 RACcheck 實(shí)用程序 |
11. 使用 slewing 選項(xiàng)實(shí)施 NTP |
References |
Oracle Database - Enterprise Edition - Version
10.2.0.1 to 11.2.0.2 [Release 10.2 to 11.2]
Information in this document
applies to any platform.
</style.
許多 RAC 不穩(wěn)定的問題皆可歸因于沒有實(shí)施一個(gè)其實(shí)很短的最佳實(shí)踐和(或)配置列表。本文檔旨在提供一種簡(jiǎn)單的方法,找出這些常被遺漏的最佳實(shí)踐和(或)配置問題的列表,以期可以防止這些問題引起的系統(tǒng)不穩(wěn)定。
本文章適用于所有 RAC 實(shí)施過程。
適用平臺(tái):所有平臺(tái)
原因: 10.2.0.4 及更高版本中引入了
Patchset Updates (也稱為 PSU),主要是為了改進(jìn) CPU 修補(bǔ)策略。PSU 按季度推出,其中包括最新的
CPU,另外它們也包含其它對(duì)保持您的環(huán)境穩(wěn)定性非常重要的修正。如果要進(jìn)行全新安裝,應(yīng)始終應(yīng)用最新的 PSU
作為您的基線。對(duì)于現(xiàn)有安裝,一個(gè)必須實(shí)施的策略就是定期和持續(xù)的應(yīng)用最新的 PSU 。許多提交給 Oracle Support 并被確認(rèn)為屬于 bug
的問題都是已知 bug,其中許多 bug 已在最新的 PSU 得到修正。請(qǐng)注意,在 Windows 上,會(huì)更經(jīng)常推出累積型的補(bǔ)丁包,但是在季度 PSU
版本期間發(fā)行的 Windows bundle patch 中包含了最新的 PSU 修正程序。
更多信息:有關(guān)
PSU 的更多信息,請(qǐng)參閱以下文檔:
Document 854428.1
Intro to Patch Set Updates (PSU)
Document
1082394.1 11.2.0.X Grid Infrastructure PSU Known Issues
Document 756671.1
Oracle Recommended Patches -- Oracle Database
Document 161549.1
Oracle Database, Networking and Grid Agent Patches for Microsoft Platforms
適用平臺(tái): Windows 除外的所有平臺(tái)
原因: 私網(wǎng)可以說是 RAC
數(shù)據(jù)庫的命脈。但是,如果未向 UDP
分配合適的緩沖空間用以發(fā)送和接收緩沖,則私網(wǎng)的性能將大幅降低。這將會(huì)導(dǎo)致您的集群出現(xiàn)穩(wěn)定性問題。
更多信息:有關(guān)正確調(diào)整
UDP 緩沖區(qū)的更多信息,請(qǐng)參考以下文檔:
Document 181489.1
Tuning Inter-Instance Performance in RAC and OPS
Document 563566.1
gc lost blocks diagnostics
注意: Windows 集群對(duì) Cache fusion 通信使用 TCP,因此,UDP 緩沖區(qū)設(shè)置不適用于 Windows。
適用平臺(tái): Windows 除外的所有平臺(tái)
原因: 在 10gR2
(10.2.x) 和 11gR1 (11.1.x) 中,OPROCD 守護(hù)進(jìn)程的默認(rèn)容差僅設(shè)置為 500 毫秒(0.5
秒)。對(duì)于非常繁忙的系統(tǒng),此容差可能過小,因此負(fù)載繁重的系統(tǒng)可能會(huì)出現(xiàn)錯(cuò)誤重啟的情況。將 diagwait 設(shè)置更改為 13 后,OPROCD 的容差變成
10,000 毫秒(10 秒),為繁忙的系統(tǒng)提供了更長(zhǎng)容差,可避免出現(xiàn)錯(cuò)誤重啟的情況。另外,如果出現(xiàn)節(jié)點(diǎn)重啟的情況,設(shè)置diagwait
能夠提供更多的時(shí)間將診斷信息刷新到跟蹤文件中,以供進(jìn)一步診斷使用。此更改不能包含在補(bǔ)丁集中,因?yàn)楸仨氷P(guān)閉整個(gè)集群才能實(shí)施。但是,我們?nèi)匀粡?qiáng)烈建議在所有
10gR2 和 11gR1 群集上將此值更改為
13。對(duì)于新實(shí)施的集群,應(yīng)在安裝后立即進(jìn)行此更改。對(duì)于現(xiàn)有的安裝,應(yīng)當(dāng)安排停機(jī)時(shí)間,以盡快進(jìn)行此項(xiàng)更改??赏ㄟ^以下命令確認(rèn)當(dāng)前設(shè)置:
# $CLUSTERWARE_HOME\bin\crsctl get css diagwait
注意:此設(shè)置不適用于 Windows 環(huán)境,也不適用于 11gR2 版本(11.2.0.1 和更高版本)。
更多信息:有關(guān) DIAGWAIT 的更多信息,請(qǐng)參考以下文檔中的內(nèi)容:
Document
559365.1 Using Diagwait as a diagnostic to get more information for
diagnosing Oracle Clusterware Node evictions
Document
567730.1 Changes in Oracle Clusterware on Linux with the 10.2.0.4
Patchset
適用平臺(tái): 所有 LINUX 64 位平臺(tái)
原因: 在 Linux 環(huán)境中實(shí)施 HugePage 能夠極大地提高內(nèi)核性能。對(duì)于內(nèi)存較大的系統(tǒng),效果尤其明顯。一般而言,所有 RAM 大于 12GB 的系統(tǒng)都適合使用 Hugepage。系統(tǒng)中的 RAM 越大,系統(tǒng)啟用 Hugepage 后獲得的好處也越大。這是因?yàn)閮?nèi)核為映射和維護(hù)內(nèi)存頁表所要做的工作量會(huì)隨著系統(tǒng)內(nèi)存的增大而增加。啟用 Hugepage 能夠顯著地降低內(nèi)核要管理的頁面數(shù),而且能提高系統(tǒng)的效率。經(jīng)驗(yàn)表明,如果未啟用 Hugepage,內(nèi)核擠占關(guān)鍵的 Oracle Clusterware 或 Real Application Clusters 守護(hù)進(jìn)程的情況會(huì)很常見,而這會(huì)導(dǎo)致實(shí)例或節(jié)點(diǎn)驅(qū)逐出現(xiàn)。
注意:在 Linux 平臺(tái)上,11g Automatic Memory Management (AMM) 與 HugePage 不兼容。最佳實(shí)踐是禁用 AMM,以支持 HugePage。有關(guān) Linux 上的 AMM 和 HugePage 的更多信息,請(qǐng)參閱Document 749851.1
更多信息:
Document 361323.1
HugePages on Linux: What It Is... and What It Is Not...
Document
401749.1 Shell Script. to Calculate Values Recommended Linux HugePages /
HugeTLB Configuration
適用平臺(tái): 所有平臺(tái)
原因: 雖然 OS Watcher 和
Cluster Health Monitor 與穩(wěn)定性并不直接相關(guān),但是,對(duì)于確定 OS
狀態(tài)和分析導(dǎo)致節(jié)點(diǎn)或?qū)嵗?qū)逐的許多問題的潛在根本原因方面,它們卻是非常好用的工具。如果在第一次發(fā)生某個(gè)問題后就有合適的數(shù)據(jù)可用于診斷這個(gè)問題,則可縮短確定根本原因的時(shí)間,而且能防止以后出現(xiàn)停機(jī)。大部分類似的第三方數(shù)據(jù)收集工具的收集間隔時(shí)間都比較長(zhǎng)(如
5 分鐘或更長(zhǎng)),而且(或者)它們很難被解釋,或收集到的數(shù)據(jù)不正確。OS Watcher 是一款非常簡(jiǎn)單的小型工具,每 30 秒鐘(默認(rèn))收集一次 OS
的基本信息。Cluster Health Monitor 雖然不適用于所有平臺(tái),但它能夠更精細(xì)地實(shí)時(shí)收集數(shù)據(jù),可以補(bǔ)充 OS Watcher
的不足之處。應(yīng)當(dāng)在所有集群節(jié)點(diǎn)上全天候運(yùn)行這兩個(gè)實(shí)用程序或其中一個(gè),有助于更快地診斷和調(diào)試問題。
更多信息:
Document 301137.1
OS Watcher User Guide
Document
1328466.1 Cluster Health Monitor (CHM) FAQ
Document 580513.1
How To Start OSWatcher Black Box Every System Boot (Linux specific)
(請(qǐng)參閱 Oracle / IBM 針對(duì)系統(tǒng)穩(wěn)定性進(jìn)行內(nèi)存優(yōu)化而聯(lián)合編寫的白皮書)
適用平臺(tái): 所有 AIX 版本
原因: Oracle
Real Application Clusters on IBM AIX Best practices in memory tuning and
configuring for system stability (Oracle Real Application Clusters on
IBM AIX
針對(duì)系統(tǒng)穩(wěn)定性進(jìn)行內(nèi)存優(yōu)化和配置的最佳實(shí)踐)白皮書是這兩大供應(yīng)商根據(jù)共同的經(jīng)驗(yàn)進(jìn)行聯(lián)合測(cè)試與合并最佳實(shí)踐后的精華。經(jīng)驗(yàn)表明,如果遵照本白皮書的建議,可以解決
RAC/AIX 集群中的大多數(shù)穩(wěn)定性問題。AIX 版本 6.1 已將其中的多數(shù)建議作為默認(rèn)值包含在內(nèi),但仍應(yīng)在所有 AIX RAC 群集上確認(rèn)這些設(shè)置,不論哪個(gè)
OS 或 Oracle 版本。
更多信息:
白皮書下載地址: http://www.oracle.com/technetwork/database/clusterware/overview/rac-aix-system-stability-131022.pdf
Document
811293.1 RAC Assurance Support Team: RAC Starter Kit and Best Practices
(AIX)
適用平臺(tái): 所有 AIX 版本
原因: 經(jīng)驗(yàn)表明,這是很常見的會(huì)影響 AIX 環(huán)境的問題。鑒于此問題的性質(zhì),任何易受此問題影響的用戶應(yīng)該都有過系統(tǒng)完全掛起的經(jīng)歷。在非 RAC
環(huán)境中,此問題會(huì)導(dǎo)致系統(tǒng)掛起,直到進(jìn)行手動(dòng)干預(yù)為止。而在 RAC
環(huán)境中,此問題會(huì)由于節(jié)點(diǎn)無法響應(yīng)導(dǎo)致出現(xiàn)節(jié)點(diǎn)驅(qū)逐的情況。
更多信息: 有關(guān)此問題的更多信息,請(qǐng)參考 Document
1088076.1 Paging Space Growth May Occur Unexpectedly on AIX Systems With 64K
(medium) Pages Enabled
注意: 該文章中列出的 APAR 版本和編號(hào)特定于給定的Technology Level (TL)。您需要應(yīng)用的實(shí)際 APAR 或修正程序編號(hào)將取決于您使用的 AIX (Technology Level, TL)。請(qǐng)與 IBM 聯(lián)系,確認(rèn)是否已進(jìn)行此項(xiàng)修正,如果尚未進(jìn)行,確認(rèn)需要哪種 TL 或 APAR 才能進(jìn)行此項(xiàng)特定的修正。
適用平臺(tái): 所有平臺(tái)
原因: 從
10.2.0.4 和 11.1.0.7 RDBMS 補(bǔ)丁集開始,可在支持 NUMA 的平臺(tái)(取決于 OS 和硬件)上進(jìn)行 NUMA 優(yōu)化。在(支持 NUMA
的系統(tǒng)中的)RDBMS 代碼中應(yīng)用 NUMA 會(huì)觸發(fā)一些導(dǎo)致數(shù)據(jù)庫性能降低和不穩(wěn)定的 bug。與 10.2.0.4 和 11.1.0.7 中的 NUMA
優(yōu)化相關(guān)的癥狀/問題相關(guān)的完整列表,請(qǐng)見 Document
759565.1。如果要運(yùn)行 10.2.0.4 或 11.1.0.7 補(bǔ)丁集,Oracle 強(qiáng)烈建議將 Patch 8199533 應(yīng)用于系統(tǒng),以預(yù)先解決這些 NUMA 相關(guān)的問題。
適用平臺(tái): Windows 平臺(tái)
原因: 現(xiàn)已發(fā)現(xiàn),Windows 集群上的非交互式 Desktop Heap
的默認(rèn)大小不夠。這會(huì)導(dǎo)致出現(xiàn)應(yīng)用程序連接問題和集群總體不穩(wěn)定(掛起和/或崩潰)的問題。要有效地解決此問題,建議將非交互式 Desktop Heap增加到
1MB。如果沒有 Microsoft 參與,不應(yīng)超過建議的 1MB。
更多信息: 關(guān)于如何對(duì)非交互式
Desktop Heap進(jìn)行上述調(diào)整的說明,請(qǐng)見 Document
744125.1.
適用平臺(tái): Linux(x86 和 x86_64)、Solaris SPARC 和 AIX(使用 bash
shell)
原因: RACcheck 是一款 RAC
配置審核工具,主要用于審核 Real Application Clusters (RAC)、Oracle Clusterware (CRS)、Automatic
Storage Management (ASM) 和 Grid Infrastructure (GI) 環(huán)境中各個(gè)重要的配置設(shè)置。此實(shí)用程序用于驗(yàn)證由 RAC
Assurance 開發(fā)和支持團(tuán)隊(duì)維護(hù)的 RAC 和 Oracle Clusterware 最佳實(shí)踐和初學(xué)者指南文章(請(qǐng)參閱 Document
810394.1)系列定義的最佳實(shí)踐和成功因素。我們強(qiáng)烈建議在 RACcheck 支持的平臺(tái)上運(yùn)行 RAC
的客戶使用此工具識(shí)別會(huì)影響集群穩(wěn)定性的潛在配置問題。
更多信息: 有關(guān) RACcheck
的更多信息和下載此實(shí)用程序的鏈接請(qǐng)參見 Document
1268927.1.
適用平臺(tái): 所有 Linux 和 Unix
平臺(tái)。
原因: 如果沒有 slewing
選項(xiàng),在時(shí)間差異超過特定(取決于平臺(tái))閾值時(shí),NTP 將向前或向后調(diào)整系統(tǒng)時(shí)鐘。大幅度向后調(diào)整時(shí)間會(huì)導(dǎo)致 Clusterware
以為錯(cuò)過了簽到,從而發(fā)生節(jié)點(diǎn)驅(qū)逐的情況。出于此原因,我們強(qiáng)烈建議將 NTP 配置調(diào)整為 slewing time
(加快或減慢)時(shí)鐘時(shí)間以同步時(shí)間,以防止此類驅(qū)逐情況的發(fā)生。有關(guān)如何在您的平臺(tái)上實(shí)施 NTP 時(shí)間調(diào)整的更多信息,請(qǐng)參考平臺(tái)特定的 RAC 與 Oracle
Clusterware 最佳實(shí)踐和初學(xué)者指南文檔(見下文)。
更多信息:
Document 811306.1
RAC and Oracle Clusterware Best Practices and Starter Kit (Linux)
Document 811280.1
RAC and Oracle Clusterware Best Practices and Starter Kit (Solaris)
Document 811271.1
RAC and Oracle Clusterware Best Practices and Starter Kit (Windows)
Document 811293.1
RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)
Document 811303.1
RAC and Oracle Clusterware Best Practices and Starter Kit (HP-UX)
</style.
NOTE:401749.1 -
Shell Script. to Calculate Values Recommended Linux HugePages / HugeTLB
Configuration
NOTE:1054902.1 -
How to Validate Network and Name Resolution Setup for the Clusterware and
RAC
BUG:13623902
- NODE EVICTIONS ON RAC CLUSTER AFTER EXCESSIVE PAGING
NOTE:756671.1 -
Oracle Recommended Patches -- Oracle Database
NOTE:759565.1 -
Oracle NUMA Usage Recommendation
NOTE:559365.1 -
Using Diagwait as a diagnostic to get more information for diagnosing Oracle
Clusterware Node evictions
NOTE:563566.1 -
Troubleshooting gc block lost and Poor Network Performance in a RAC
Environment
NOTE:567730.1 -
Changes in Oracle Clusterware on Linux with the 10.2.0.4 Patchset
NOTE:744125.1 -
Connections Fail with ORA-12640 or ORA-21561
NOTE:749851.1 -
HugePages and Oracle Database 11g Automatic Memory Management (AMM) on
Linux
NOTE:1427855.1 -
AIX: Top Things to DO NOW to Stabilize 11gR2 GI/RAC Cluster
NOTE:810394.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Platform.
Independent)
NOTE:811271.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Windows)
NOTE:811280.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Solaris)
NOTE:811293.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)
NOTE:811306.1 -
RAC and Oracle Clusterware Best Practices and Starter Kit (Linux)
NOTE:854428.1 -
Patch Set Updates for Oracle Products
NOTE:1268927.1 -
RACcheck - RAC Configuration Audit Tool
NOTE:1328466.1 -
Cluster Health Monitor (CHM) FAQ
NOTE:161549.1 -
Oracle Database, Networking and Grid Agent Patches for Microsoft Platforms
NOTE:1082394.1 -
11.2.0.1.X Grid Infrastructure PSU Known Issues
NOTE:1088076.1 -
AIX: Paging Space Growth May Occur Unexpectedly With 64K (medium) Pages
Enabled
NOTE:181489.1 -
Tuning Inter-Instance Performance in RAC and OPS
NOTE:301137.1 -
OSWatcher Black Box User Guide (Includes: [Video])
NOTE:361323.1 -
HugePages on Linux: What It Is... and What It Is Not...
相關(guān)內(nèi)容… |
產(chǎn)品… |
Oracle Database Products > Oracle Database > Oracle Database > Oracle Database - Enterprise Edition > Real Application Cluster > OUI and other Installation Issues
關(guān)鍵字… |
CHINESE;CLUSTERWARE;CRASH;CRS;EVICTION;GRID INFRASTRUCTURE;INFRASTRUCTURE;RAC;REAL APPLICATION CLUSTERS
關(guān)于保持RAC群集環(huán)境穩(wěn)定當(dāng)前必須要做的11件事分別是哪些就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。