Networking
核心日誌中的 eth0 NIC Link is Down 重複消息
我從幾天前就注意到了同樣的重複消息,我可以肯定地說在那段時間沒有故意改變(安裝/解除安裝)。
這是/var/log/kern.log消息的範例:
Mar 30 06:32:45 aurora kernel: [566322.867110] e1000e: eth0 NIC Link is Down Mar 30 06:32:47 aurora kernel: [566325.313634] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx Mar 30 06:32:59 aurora kernel: [566337.632930] e1000e: eth0 NIC Link is Down Mar 30 06:33:18 aurora kernel: [566356.543664] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None Mar 30 11:05:47 aurora kernel: [582689.779752] e1000e: eth0 NIC Link is Down Mar 30 11:05:50 aurora kernel: [582692.174337] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
從完整的日誌文件中-當將所有此類日誌消息計入計數時-我可以得出結論:
- eth0 每隔幾個小時就會失敗一次
- eth0 在第一種情況下失敗兩次,在第二種情況下失敗 19 秒
我在這裡談論的是生產伺服器。
如何解決這個問題,因為郵件伺服器處於生產狀態並且我不能容忍持續 19 秒的網路故障?
- 檢查線路上的錯誤,查看輸出中的“錯誤”欄位
ifconfig
。如果非零,則硬體(電纜、NIC 卡或集線器/交換機)有問題。不可靠的乙太網電纜也會在該領域產生錯誤。- 更換乙太網電纜,無論第 1 步如何。這是快速、便宜且簡單的,並且應該在您的鏈路以隨機間隔上升和下降時完成。
- 使用
ethtool
並確保網路設置(雙工等)與交換機上的設置相匹配。如果您不是交換機的管理員,請讓網路管理員為您提供設置。- 如果交換機啟用了流控制,那麼請確保在您的 Linux 機器上啟用了它。否則,禁用它。
作為旁注,您應該評估是否需要流量控制。根據惠普的說法,它只對高性能應用程序是必需的:請參閱惠普關於何時使用流量控制的文章