溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

OpenStack 癱瘓的分析及解決方法

發(fā)布時(shí)間:2021-11-19 14:06:00 來(lái)源:億速云 閱讀:154 作者:柒染 欄目:云計(jì)算

OpenStack 癱瘓的分析及解決方法,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

是軟件就會(huì)有 bug,OpenStack 也不例外,只要用它就一定會(huì)遇到故障。Troubleshooting(故障排除)是運(yùn)維 OpenStack 等開(kāi)源項(xiàng)目的重要技能,遇到問(wèn)題后一定要借助社區(qū)的力量定位、搜索、分析并解決問(wèn)題。

下面 CloudMan 將分享一個(gè)真實(shí)的案例,還原當(dāng)時(shí) Troubleshooting 的過(guò)程,希望能給大家一些啟發(fā)。

問(wèn)題描述

某天客戶的 OpenStack 突然全線癱瘓:任何操作都無(wú)法正常完成,一直處于正在執(zhí)行狀態(tài),界面上也不報(bào)錯(cuò),就是無(wú)法完成操作。

問(wèn)題分析

這是一個(gè)全局性的問(wèn)題,首先查看 nova 日志,無(wú)報(bào)錯(cuò),再看 MySQL 和 RabbitMQ 日志,在 RabbitMQ 中發(fā)現(xiàn)大量重復(fù)報(bào)錯(cuò):

一直報(bào) reply_529af7a7c3784c2d9dc5e72c603024a5 這個(gè) exchange 找不到。 這些 reply_XXX 的都是 OpenStack 自己維護(hù)的,之前運(yùn)行得好好的,為什么突然找不到,應(yīng)該是發(fā)生了異常,跟配置沒(méi)有關(guān)系,估計(jì)是 bug。


先 google 一下吧。搜索技術(shù)問(wèn)題,google 是首選,翻不了墻就用 bing,度娘嘛還是讓她專注中文吧 :-)

這里貼出 bing 的搜索結(jié)果:

看上去第二個(gè)比較靠譜,點(diǎn)進(jìn)去發(fā)現(xiàn)跟我們的情況完全一樣,而且還提到一個(gè)相關(guān) bug。

瀏覽一下 bug 的內(nèi)容,確實(shí)是我們遇到的問(wèn)題,這是一個(gè) oslo.messaging 的 bug,而且已經(jīng) fix 了。

因?yàn)榭蛻?OpenStack 版本是 kilo, 所以點(diǎn)擊 kilo 對(duì)應(yīng)的 review 鏈接看看 fix 都修改了哪些地方。

一共改了兩個(gè)文件,點(diǎn)開(kāi) amqpdriver.py 的鏈接,可以看到 diff。

對(duì)比客戶系統(tǒng) /usr/local/lib/python2.7/dist-packages/oslo_messaging/_drivers/amqpdriver.py 文件內(nèi)容,確實(shí)是 fix 之前的版本。

問(wèn)題確定了,解決辦法也有了:更新 olso.messageing 包。

解決問(wèn)題

OpenStack 的源代碼是在 github 上維護(hù)的,每個(gè)模塊有自己的 repository。 oslo.messageing 的項(xiàng)目主頁(yè)是 https://github.com/openstack/oslo.messaging

因?yàn)槲覀兡壳暗陌姹臼?kilo,所以要找 oslo.messaging 在 kilo 上的最新版本。

在 Tags 中,我們看到有 kilo-eol,eol 的意思是 “end of life”,是 kilo 的最終版本了。

可以再次確認(rèn),kilo-eol 確實(shí)包含了我們想要的 fix。后面的工作就很直接了:

  1. 下載 oslo.messaging 代碼庫(kù)。

  2. 安裝 kilo-eol 版本。

  3. 重啟相關(guān) OpenStack 相關(guān)服務(wù)。

由于 oslo.messaging 是基礎(chǔ)組件,幾乎所有服務(wù)都會(huì)用到,所以不得不更新每一個(gè)節(jié)點(diǎn)并重啟 OpenStack。工作量雖然大些,但問(wèn)題終于解決了。

關(guān)于OpenStack 癱瘓的分析及解決方法問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI