記一次磁盤故障排查

發(fā)布時間：2020-07-11 01:50:39 來源：網(wǎng)絡閱讀：262 作者：細哥細妹欄目：建站服務器

事故背景：

物理機（192.168.200.10）安裝了KVM虛擬化，虛擬化的機器無法正常啟動，進入vnc界面查看到linux系統(tǒng)在讀取硬盤的時候需要30s-60s左右，正常啟動的話幾秒鐘即可。懷疑是和硬盤有關系。

解決思路：

1、查看當前系統(tǒng)硬盤負載情況
2、查看哪個進程占用了硬盤IO

步驟1、使用iostat –x 1 iostat還有一個比較常用的選項-x，該選項將用于顯示和io相關的擴展數(shù)據(jù)。如圖


rrqm/s：每秒這個設備相關的讀取請求有多少被Merge了（當系統(tǒng)調(diào)用需要讀取數(shù)據(jù)的時候，VFS將請求發(fā)到各個FS，如果FS發(fā)現(xiàn)不同的讀取請求讀取的是相同Block的數(shù)據(jù)，F(xiàn)S會將這個請求合并Merge）；wrqm/s：每秒這個設備相關的寫入請求有多少被Merge了。
rsec/s：每秒讀取的扇區(qū)數(shù)；
wsec/：每秒寫入的扇區(qū)數(shù)。
rKB/s：The number of read requests that were issued to the device per second；
wKB/s：The number of write requests that were issued to the device per second；
avgrq-sz 平均請求扇區(qū)的大小
avgqu-sz 是平均請求隊列的長度。毫無疑問，隊列長度越短越好。    
await：  每一個IO請求的處理的平均時間（單位是微秒毫秒）。這里可以理解為IO的響應時間，一般地系統(tǒng)IO響應時間應該低于5ms，如果大于10ms就比較大了。
         這個時間包括了隊列時間和服務時間，也就是說，一般情況下，await大于svctm，它們的差值越小，則說明隊列時間越短，反之差值越大，隊列時間越長，說明系統(tǒng)出了問題。
svctm    表示平均每次設備I/O操作的服務時間（以毫秒為單位）。如果svctm的值與await很接近，表示幾乎沒有I/O等待，磁盤性能很好，如果await的值遠高于svctm的值，則表示I/O隊列等待太長，         系統(tǒng)上運行的應用程序?qū)⒆兟?%util： 在統(tǒng)計時間內(nèi)所有處理IO時間，除以總共統(tǒng)計時間。例如，如果統(tǒng)計間隔1秒，該設備有0.8秒在處理IO，而0.2秒閑置，那么該設備的%util = 0.8/1 = 80%，所以該參數(shù)暗示了設備的繁忙程度
。一般地，如果該參數(shù)是100%表示設備已經(jīng)接近滿負荷運行了（當然如果是多磁盤，即使%util是100%，因為磁盤的并發(fā)能力，所以磁盤使用未必就到了瓶頸）。

記一次磁盤故障排查

由此得出：硬盤的負載已達到瓶頸；

步驟2、使用iotop，類似top命令。查看哪個進程占用了硬盤IO，如圖：

記一次磁盤故障排查
得出結論，有臺虛擬機（192.168.200.207）占用了硬盤IO，將該機器關機之后得到解決

向AI問一下細節(jié)

記一次磁盤故障排查

事故背景：

解決思路：

步驟1、使用iostat –x 1 iostat還有一個比較常用的選項-x，該選項將用于顯示和io相關的擴展數(shù)據(jù)。如圖

步驟2、使用iotop，類似top命令。查看哪個進程占用了硬盤IO，如圖：

猜你喜歡

最新資訊

相關推薦

相關標簽

步驟1、使用iostat –x 1 iostat還有一個比較常用的選項-x，該選項將用于顯示和io相關的擴展數(shù)據(jù)。如圖

步驟2、使用iotop，類似top命令。查看哪個進程占用了硬盤IO，如圖：