Networking

核心日誌中的 eth0 NIC Link is Down 重複消息

  • March 21, 2017

我從幾天前就注意到了同樣的重複消息,我可以肯定地說在那段時間沒有故意改變(安裝/解除安裝)。

這是/var/log/kern.log消息的範例:

Mar 30 06:32:45 aurora kernel: [566322.867110] e1000e: eth0 NIC Link is Down

Mar 30 06:32:47 aurora kernel: [566325.313634] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

Mar 30 06:32:59 aurora kernel: [566337.632930] e1000e: eth0 NIC Link is Down

Mar 30 06:33:18 aurora kernel: [566356.543664] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Mar 30 11:05:47 aurora kernel: [582689.779752] e1000e: eth0 NIC Link is Down

Mar 30 11:05:50 aurora kernel: [582692.174337] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

從完整的日誌文件中-當將所有此類日誌消息計入計數時-我可以得出結論:

  • eth0 每隔幾個小時就會失敗一次
  • eth0 在第一種情況下失敗兩次,在第二種情況下失敗 19 秒

我在這裡談論的是生產伺服器。

如何解決這個問題,因為郵件伺服器處於生產狀態並且我不能容忍持續 19 秒的網路故障?

  1. 檢查線路上的錯誤,查看輸出中的“錯誤”欄位ifconfig。如果非零,則硬體(電纜、NIC 卡或集線器/交換機)有問題。不可靠的乙太網電纜也會在該領域產生錯誤。
  2. 更換乙太網電纜,無論第 1 步如何。這是快速、便宜且簡單的,並且應該在您的鏈路以隨機間隔上升和下降時完成。
  3. 使用ethtool並確保網路設置(雙工等)與交換機上的設置相匹配。如果您不是交換機的管理員,請讓網路管理員為您提供設置。
  4. 如果交換機啟用了流控制,那麼請確保在您的 Linux 機器上啟用了它。否則,禁用它。

作為旁注,您應該評估是否需要流量控制。根據惠普的說法,它只對高性能應用程序是必需的:請參閱惠普關於何時使用流量控制的文章

引用自:https://serverfault.com/questions/585442