您好,登錄后才能下訂單哦!
下面先簡單介紹一下個(gè)人這幾年從事運(yùn)維工作以來得出的感悟與體會(huì)
1.操作系統(tǒng)狀況檢查與告警
登錄系統(tǒng)或者通過監(jiān)控報(bào)警平臺(tái)查看系統(tǒng)運(yùn)轉(zhuǎn)的負(fù)載
磁盤空間狀態(tài),內(nèi)存使用狀態(tài),有無報(bào)錯(cuò)日記, 查看報(bào)警記錄等。
2.操作系統(tǒng)故障處理
根據(jù)檢查與監(jiān)控的情況,對(duì)發(fā)現(xiàn)的系統(tǒng)故障進(jìn)行處理,對(duì)己知故障進(jìn)行預(yù)防方案部署,在日常運(yùn)維中,還會(huì)有許多其他部分提出的問題返遺,比如客戶經(jīng)驗(yàn)會(huì)反應(yīng)某某地區(qū)用戶訪問網(wǎng)站速度慢
像這種情況要結(jié)合南北線路,以及用戶的網(wǎng)絡(luò)環(huán)境等綜合因素進(jìn)行處理。
3.服務(wù)器性能分析和優(yōu)化
通過監(jiān)控平臺(tái) ,在一定數(shù)據(jù)庫基本的圖形分析下,對(duì)特定的業(yè)務(wù)通過圖形分析了解服務(wù)器壓力情況
比如磁盤IO,內(nèi)存使用率,CPU使用率等進(jìn)行定期分析和優(yōu)化。
4.備份與備份數(shù)據(jù)檢查
數(shù)據(jù)庫備份和恢復(fù),是運(yùn)維日常操作中最常見的操作了,一般是寫計(jì)劃任務(wù)對(duì)數(shù)據(jù)進(jìn)行備份
但是更重要的是需要對(duì)備份的數(shù)據(jù)定期進(jìn)行檢查,計(jì)劃任務(wù)是否成功執(zhí)行,數(shù)據(jù)庫份是否完整等。
5.緊急故障處理
服務(wù)器內(nèi)存故障,硬盤故障,機(jī)房網(wǎng)絡(luò)故障,每天都在發(fā)生,通過這些情況影響大,會(huì)直接驚動(dòng)上司甚至全公司的關(guān)注,并且處理周期也不一定是運(yùn)維人員可控的,這就對(duì)運(yùn)維提出更高的要求,對(duì)于這種情況,只能平時(shí)多做功課,做好冗余方案,鏡像方案,保證重要數(shù)據(jù)隨時(shí)都有兩份,出故障能馬上切換。
隨著運(yùn)維工程師的職業(yè)越來越香,越來越多的人選擇它來開始自己的職業(yè)生涯。
那么你想不想深入了解運(yùn)維工程師的生活?他們的一天是怎么度過的?
下面讓我們來看看大小牛們的自述。
在我面試了一些運(yùn)維職位的同學(xué)以后,我覺得在中國很大一部分運(yùn)維的同學(xué)都是每天過著我以下要提到的,我最不喜歡的最典型的一天。
我最不喜歡的一天:
早上一來到公司,就被一個(gè)跑過來的同事打斷:他有一個(gè)需求。其他的同事在IM、郵件和電話中也分別提出了他們的需求。沒辦法,只能默默地把這些需求記在todo list上。
剛坐下,臨時(shí)被拉去開一次會(huì),同事說要怎樣怎樣協(xié)助他。
剛回來,發(fā)現(xiàn)10分鐘后有一個(gè)面試。
面試回來,發(fā)現(xiàn)10分鐘后有一個(gè)計(jì)劃中的會(huì)議。
會(huì)議回來,產(chǎn)品功能測試完畢,要協(xié)助上線操作。
上線過程沒有標(biāo)準(zhǔn)化,生產(chǎn)環(huán)境出錯(cuò),緊急回滾。
抓來這次上線相關(guān)人員,討論為何會(huì)出現(xiàn)這樣的事故,日后如何規(guī)避。
回來后,再次準(zhǔn)備上線,這次上線過程全程跟進(jìn)。
終于正常上線完成了。
噢,不。只是功能上線完成,原來還有一個(gè)很大的性能問題。繼續(xù)救火。
調(diào)整參數(shù),性能調(diào)優(yōu),服務(wù)器負(fù)載終于下去了。
看一下時(shí)間,已經(jīng)差不多是下班的時(shí)間了。
對(duì)著一直在增長的todo list,一臉的茫然。
以上略夸張,但是各種千奇百怪的中斷確實(shí)很可怕。各類中斷還有上下文切換的。很多人就這樣埋沒在中斷中了。個(gè)人認(rèn)為一個(gè)運(yùn)維最應(yīng)該的一天工作時(shí)間安排:
20%的時(shí)間——處理緊急重要的事情。
80%的時(shí)間——開展重要不緊急的事情的工作。
緊急重要很容易理解,其實(shí)就是救火類工作。
重要不緊急的工作,才是最能體現(xiàn)運(yùn)維的價(jià)值的工作。監(jiān)控系統(tǒng),這個(gè)是一個(gè)大話題。除了被動(dòng)地監(jiān)控各類服務(wù)的正常與否,還有主動(dòng)開發(fā)各類協(xié)助系統(tǒng)分析的系統(tǒng),并對(duì)整個(gè)系統(tǒng)的未來有規(guī)劃性。
性能調(diào)優(yōu)是我最喜歡的一個(gè)方面。發(fā)現(xiàn)性能瓶頸和解決性能問題,我都很喜歡。
開發(fā)工具型系統(tǒng)是提高自己和團(tuán)隊(duì)內(nèi)所有人的工作效率的一種途徑,尤其是可以快速解決那些中斷的工具。
學(xué)習(xí)——這個(gè)是最重要的。運(yùn)維涉及的知識(shí)面非常廣,不斷學(xué)習(xí)才能順利快速解決以上各類問題,不斷嘗試不斷經(jīng)歷才有足夠的經(jīng)驗(yàn)遇神殺神,遇佛殺佛。
一天一天,做好重要不緊急的工作,才能令到運(yùn)維工作更有效率、整個(gè)系統(tǒng)更穩(wěn)定、未來的發(fā)展更具有預(yù)見性。
正常的一天,8點(diǎn)半起床,9點(diǎn)半到公司開始一天的工作。
1)看看昨天的超時(shí)報(bào)表,看看那個(gè)系統(tǒng)超時(shí)比較多。
2)從監(jiān)控圖中查查超時(shí)比較集中的機(jī)器、看看機(jī)器的基礎(chǔ)監(jiān)控、硬件有沒有故障、有沒有人誤操作、有沒有人在沒有通知的情況下訪問引擎等。查到原因,和開發(fā)商議解決方案和deadline,回復(fù)郵件。
救火:突發(fā)性故障不可避免的會(huì)產(chǎn)生
中斷:產(chǎn)品、程序、QC誰都能找你,事情可能也是千奇百怪,無法一一道來
求知:你需要懂的內(nèi)容可不少,包括為了“對(duì)付”上面的中斷
開發(fā):各種協(xié)助運(yùn)維的系統(tǒng)
補(bǔ)漏:已經(jīng)BUG,可預(yù)見性的問題、缺陷
規(guī)劃:高預(yù)見性,大局觀
干了幾年運(yùn)維,說說感受。
早上起來打開nagios,看到一串的報(bào)警,比如日志空間不足80%,某個(gè)備份沒成功,某個(gè)計(jì)劃任務(wù)執(zhí)行失敗,某個(gè)數(shù)據(jù)庫的索引建立失敗,等等等等….手動(dòng)全部解決大約11點(diǎn)。
看看昨天值班的日志,各種上線,各種下線,各種修修補(bǔ)補(bǔ),nginx主配置里增加了14行,8個(gè)配置文件;DNS配置增加N行;兩塊硬盤要換,一臺(tái)存儲(chǔ)機(jī)頭要換,已經(jīng)下線在機(jī)房等DELL過來換。給IDC的同事打電話確認(rèn)這些亂事…
.
開發(fā)和測試說某個(gè)項(xiàng)目的性能要提升到20W/小時(shí)(其實(shí)這個(gè)項(xiàng)目每日獨(dú)立ip沒超過200),編輯說讓我們給他們轉(zhuǎn)換幾萬個(gè)文章的UID,給三個(gè)部門的header寫郵件“不給項(xiàng)目加服務(wù)器、把轉(zhuǎn)uid的任務(wù)交給dba”,然后被vp交去辦公室說–要盡力配合其它部門,不能推來推去…….回去給值班的同事寫郵件說把某個(gè)項(xiàng)目加2臺(tái)服務(wù)器,怕被罵只能自己轉(zhuǎn)uid….這就一天結(jié)束了。
while(1)
{
早上一般9點(diǎn)起床吧,折騰一下9點(diǎn)半到公司,一般吃著路邊買的餅,一邊看看kindle上訂閱的新聞,技術(shù)章。上午就自己搞搞興趣的東西,寫一些改進(jìn)目前工作的腳本。接受一下開發(fā)測試的咨詢,幫他們搞一下研發(fā)環(huán)境的問題。下午事情比較集中,一邊開會(huì)一邊處理一些線上的問題,基本自己都是同時(shí)起三個(gè)以上的線上,自己的大腦不是超線程的,但是一般確實(shí)得同時(shí)搞N件事情。
到了下班時(shí)間事情還有一堆,晚上繼續(xù)搞搞,每天都想早點(diǎn)下班,每當(dāng)你準(zhǔn)備走的時(shí)候郵件、IM和電話又來一堆。。。
回到家,上上網(wǎng),看看文檔,看看OS、TCP/IP等等基礎(chǔ)的名著陶冶一下情操,搞到12點(diǎn),睡覺。
}
受邀簡單講講:
1. 處理報(bào)警,查看報(bào)警的原因,和開發(fā)一起解決,并且盡量找出避免再次發(fā)生的方法,例如添加一些定時(shí)清理腳本
2. 處理發(fā)布,基本都是自動(dòng)化,但是總有發(fā)布不成功或者需要回滾的時(shí)候,這時(shí)候就需要手工介入,找到原因,并跟開發(fā)一起討論最后是否撤銷還是重上
3. 日常一起能夠自動(dòng)化的工作盡量找到自動(dòng)化的方法
4. 會(huì)啟動(dòng)一些和運(yùn)維相關(guān)的項(xiàng)目,所以有時(shí)候也兼職項(xiàng)目開發(fā)
5. 學(xué)習(xí),看看新聞,學(xué)習(xí)資料等等。
個(gè)人標(biāo)準(zhǔn),不能開發(fā)自動(dòng)化運(yùn)維的運(yùn)維不是好運(yùn)維,不能救火的運(yùn)維不合格。
1,等待監(jiān)控系統(tǒng)報(bào)警
2,核心系統(tǒng)巡檢,備份系統(tǒng)備份任務(wù)完成情況巡檢
3,等待用戶報(bào)障
4,例行任務(wù)計(jì)劃攥寫,例行任務(wù)執(zhí)行,比如新開用戶,存儲(chǔ)擴(kuò)容等;
5,項(xiàng)目性的工作,比如新購存儲(chǔ),新的監(jiān)控系統(tǒng),新的操作系統(tǒng),應(yīng)用系統(tǒng)驗(yàn)證
6,學(xué)習(xí)新知識(shí),看技術(shù)文檔或者公司的各種通知
7,和不同供應(yīng)商(工程師),內(nèi)部人員開會(huì)
看看服務(wù)器日志,我們這邊服務(wù)器老是宕機(jī),原因?qū)映霾桓F,然后QA、PO會(huì)有一堆問題問你,讓你看看是怎么回事兒。期間會(huì)有各種會(huì)議,需要你坐在那兒聆聽。最大的一部分工作就是自動(dòng)化運(yùn)維工具的開發(fā)。趕上版本發(fā)布,尤其坑爹,各種不休息…
看報(bào)紙、喝茶、看手機(jī)——因?yàn)槎颊fLinux不會(huì)死機(jī)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。