溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Linux下怎么快速排查硬件故障

發(fā)布時(shí)間:2022-02-17 15:26:00 來源:億速云 閱讀:165 作者:iii 欄目:開發(fā)技術(shù)

這篇文章主要介紹了Linux下怎么快速排查硬件故障的相關(guān)知識(shí),內(nèi)容詳細(xì)易懂,操作簡單快捷,具有一定借鑒價(jià)值,相信大家閱讀完這篇Linux下怎么快速排查硬件故障文章都會(huì)有所收獲,下面我們一起來看看吧。

Linux下怎么快速排查硬件故障

Linux服務(wù)器在許多不同類型的基礎(chǔ)架構(gòu)中運(yùn)行關(guān)鍵任務(wù)型業(yè)務(wù)應(yīng)用程序,包括物理機(jī)、虛擬機(jī)、私有云、公共云和混合云。對(duì)于Linux系統(tǒng)管理員來說,了解如何管理Linux硬件基礎(chǔ)架構(gòu)很重要,包括與網(wǎng)絡(luò)和存儲(chǔ)有關(guān)的軟件定義功能、Linux容器和Linux服務(wù)器上的多個(gè)工具。

排查并解決Linux上與硬件有關(guān)的問題可能需要一些時(shí)間。連經(jīng)驗(yàn)豐富的系統(tǒng)管理員有時(shí)也要花幾小時(shí)來解決莫名其妙的軟硬件問題。

下列貼士幫助你更快速更輕松地為Linux中的硬件排查故障。許多不同的因素可能導(dǎo)致Linux硬件出現(xiàn)問題;在你開始嘗試診斷之前,了解最常見的問題以及最有可能找到原因的環(huán)節(jié)是明智之舉。

1.快速診斷設(shè)備、模塊和驅(qū)動(dòng)程序

故障排查的第一步通常是顯示Linux服務(wù)器上安裝的硬件列表。你可以使用ls命令獲取硬件的詳細(xì)信息,比如lspci、lsblk、lscpu和lsscsi。比如說,這是lsblk命令的輸出結(jié)果:

# lsblkNAME    MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
xvda    202:0    0  50G  0 disk
├─xvda1 202:1    0   1M  0 part
└─xvda2 202:2    0  50G  0 part /
xvdb    202:16   0  20G  0 disk
└─xvdb1 202:17   0  20G  0 part

如果ls命令沒有顯示任何錯(cuò)誤,使用初始化進(jìn)程(比如systemd)查看Linux服務(wù)器的運(yùn)行狀況。systemd是啟動(dòng)用戶空間、控制多個(gè)系統(tǒng)進(jìn)程的最流行的初始化進(jìn)程。比如說,這是systemctl status命令的輸出結(jié)果:

# systemctl status● bastion.f347.internal
   State: running
    Jobs: 0 queued
  Failed: 0 units
   Since: Wed 2018-11-28 01:29:05 UTC; 2 days ago
  CGroup: /
          ├─1 /usr/lib/systemd/systemd --switched-root --system --deserialize 21
          ├─kubepods.slice
          │ ├─kubepods-pod3881728a_f2af_11e8_af77_06af52f87498.slice
          │ │ ├─docker-88b27385f4bae77bba834fbd60a61d19026bae13d18eb147783ae27819c34967.scope
          │ │ │ └─23860 /opt/bridge/bin/bridge --public-dir=/opt/bridge/static --config=/var/console-config/console-c
          │ │ └─docker-a4433f0d523c7e5bc772ee4db1861e4fa56c4e63a2d48f6bc831458c2ce9fd2d.scope
          │ │   └─23639 /usr/bin/pod

2.深入研究多個(gè)日志

dmesg讓你可以搞清楚內(nèi)核的最新信息中的錯(cuò)誤和警示內(nèi)容。比如說,這是dmesg | more命令的輸出結(jié)果:

# dmesg | more....
[ 1539.027419] IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready
[ 1539.042726] IPv6: ADDRCONF(NETDEV_UP): veth71f37018: link is not ready
[ 1539.048706] IPv6: ADDRCONF(NETDEV_CHANGE): veth71f37018: link becomes ready
[ 1539.055034] IPv6: ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[ 1539.098550] device veth71f37018 entered promiscuous mode
[ 1541.450207] device veth71f37018 left promiscuous mode
[ 1542.493266] SELinux: mount invalid.  Same superblock, different security settings for (dev mqueue, type mqueue)
[ 9965.292788] SELinux: mount invalid.  Same superblock, different security settings for (dev mqueue, type mqueue)
[ 9965.449401] IPv6: ADDRCONF(NETDEV_UP): eth0: link is not ready
[ 9965.462738] IPv6: ADDRCONF(NETDEV_UP): vetheacc333c: link is not ready
[ 9965.468942] IPv6: ADDRCONF(NETDEV_CHANGE): vetheacc333c: link becomes ready
....

你還可以查看/var/log/messages文件中的所有Linux系統(tǒng)日志,在這里找到與特定問題有關(guān)的錯(cuò)誤。如果你對(duì)硬件進(jìn)行改動(dòng),比如掛載額外磁盤或添加以太網(wǎng)網(wǎng)卡,有必要通過tail命令實(shí)時(shí)密切關(guān)注信息。比如說,這是tail -f /var/log/messages命令的輸出結(jié)果:

# tail -f /var/log/messagesDec  1 13:20:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain in-addr.arpaDec  1 13:20:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain cluster.localDec  1 13:21:03 bastion dnsmasq[30201]: setting upstream servers from DBus
Dec  1 13:21:03 bastion dnsmasq[30201]: using nameserver 192.199.0.2#53Dec  1 13:21:03 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain in-addr.arpaDec  1 13:21:03 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain cluster.localDec  1 13:21:33 bastion dnsmasq[30201]: setting upstream servers from DBus
Dec  1 13:21:33 bastion dnsmasq[30201]: using nameserver 192.199.0.2#53Dec  1 13:21:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain in-addr.arpaDec  1 13:21:33 bastion dnsmasq[30201]: using nameserver 127.0.0.1#53 for domain cluster.local

3.分析網(wǎng)絡(luò)功能

你可能在復(fù)雜的網(wǎng)絡(luò)環(huán)境中有成千上萬個(gè)云原生應(yīng)用程序?yàn)闃I(yè)務(wù)服務(wù)提供服務(wù);這些可能包括虛擬化、多云和混合云。這意味著你應(yīng)該分析網(wǎng)絡(luò)連接是否正常運(yùn)行,這是故障排查的一部分。分析Linux服務(wù)器中網(wǎng)絡(luò)功能的實(shí)用命令包括ip addr、traceroute、nslookup、dig和ping等。比如說,這是ip addr show命令的輸出結(jié)果:

# ip addr show1:
lo:  mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
   link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
   inet 127.0.0.1/8 scope host lo
      valid_lft forever preferred_lft forever
   inet6 ::1/128 scope host
      valid_lft forever preferred_lft forever
2:
eth0:  mtu 9001 qdisc mq state UP group default qlen 1000
   link/ether 06:af:52:f8:74:98 brd ff:ff:ff:ff:ff:ff
   inet 192.199.0.169/24 brd 192.199.0.255 scope global noprefixroute dynamic eth0
      valid_lft 3096sec preferred_lft 3096sec
   inet6 fe80::4af:52ff:fef8:7498/64 scope link
      valid_lft forever preferred_lft forever
3:
docker0:  mtu 1500 qdisc noqueue state DOWN group default
   link/ether 02:42:67:fb:1a:a2 brd ff:ff:ff:ff:ff:ff
   inet 172.17.0.1/16 scope global docker0
      valid_lft forever preferred_lft forever
   inet6 fe80::42:67ff:fefb:1aa2/64 scope link
      valid_lft forever preferred_lft forever
....

關(guān)于“Linux下怎么快速排查硬件故障”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對(duì)“Linux下怎么快速排查硬件故障”知識(shí)都有一定的了解,大家如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI