Linux

網路介面周期性下降,速度更改為 0 核心錯誤

  • December 22, 2021

在過去的幾天裡,我們其中一台伺服器上的綁定網路介面已停止響應。

查看核心日誌,我注意到當介面出現故障時,我們會收到很多重複的錯誤:

[76019.645601] e1000e 0000:03:00.0 p9p1: speed changed to 0 for port p9p1
[76325.575540] e1000e 0000:03:00.0 p10p1: speed changed to 0 for port p10p1

在快速搜尋過類似問題後,我找不到任何人之前報告過這種行為。

要提供有關伺服器配置的更多詳細資訊:

  • 兩個綁定的網路介面都與 Intel 82574L 乙太網控制器相關聯。
  • 伺服器執行 Ubuntu 16.04,Linux 核心版本4.4.0-101-generic
  • 綁定的網路介面具有以下配置:
auto p9p1
iface p9p1 inet manual
bond-master bond0

auto p10p1
iface p10p1 inet manual
bond-master bond0

auto bond0
iface bond0 inet static
address 10.0.0.10
gateway 10.0.0.1
netmask 255.255.255.0
bond-mode 4
bond-miimon 100
bond-lacp-rate 1
bond-slaves p9p1 p10p1
dns-nameservers 10.0.0.2 10.0.0.3
  • 當網路介面出現故障時,通過執行重新啟動伺服器上的網路服務service networking restart,似乎可以解決問題

我想知道是否有人以前遇到過類似的問題,或者對調試此類問題的原因有什麼建議?

對我來說,這些問題似乎是由 Ubuntu 16.04 上的 Linux 核心 v4.4.0-97-generic 中的一個已知錯誤引起的:4.4.0-97-generic 中的e1000e 在重負載下會破壞 82574L。

在 Ubuntu Linux 包錯誤跟踪器上應用了由錯誤的受讓人送出的更新檔測試核心版本 v4.4.0-98 之後,我沒有經歷過在周末對綁定介面進行相當重的負載測試後返回的錯誤行為。

我只是遇到了同樣的錯誤消息。但在我的情況下,問題根本不在伺服器端。stderr 不僅列印 e1000e NIC,而且列印所有 4 個。通過電纜斷開/連接,消息被複製。所以不同的驅動程序具有相同的行為……在我們在伺服器上進行軟體調試之後,然後佈線(用新電纜更換電纜),剩下的就是機架開關的頂部。

交換機重啟解決了它。

引用自:https://serverfault.com/questions/884992