Ubuntu

伺服器隨機丟棄所有連接和丟包

  • July 25, 2011

我剛剛使用 Supermicro X8DAH+-F 板建構了一個伺服器並執行 Ubuntu 10.04 Server 64bit。這有 Intel 82576 雙埠控制器(一個埠被禁用)。由於這是一台伺服器,因此必須進行遠端訪問。

伺服器連接到交換機(DLink),交換機連接到執行DD-WRT(Netgear WNR3500v2/U/L)的路由器。

eth1      Link encap:Ethernet  HWaddr 00:25:90:03:c9:b9  
         inet addr:192.168.0.100  Bcast:192.168.0.255  Mask:255.255.255.0
         UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
         RX packets:7655 errors:0 dropped:0 overruns:0 frame:0
         TX packets:5772 errors:0 dropped:0 overruns:0 carrier:0
         collisions:0 txqueuelen:1000 
         RX bytes:7179394 (7.1 MB)  TX bytes:919727 (919.7 KB)
         Memory:fbc60000-fbc80000 

lo        Link encap:Local Loopback  
         inet addr:127.0.0.1  Mask:255.0.0.0
         UP LOOPBACK RUNNING  MTU:16436  Metric:1
         RX packets:637 errors:0 dropped:0 overruns:0 frame:0
         TX packets:637 errors:0 dropped:0 overruns:0 carrier:0
         collisions:0 txqueuelen:0 
         RX bytes:96955 (96.9 KB)  TX bytes:96955 (96.9 KB)

我正在拔頭髮。此伺服器隨機丟棄所有連接。如果我通過 SSH 登錄,會話將在登錄後 0 分鐘(立即)到 30 分鐘之間斷開連接。一旦連接斷開,服務需要幾分鐘才能恢復。

我決定從伺服器到路由器進行 24 小時 ping 測試。我注意到這些斷開連接發生在 NIC 和路由器之間的高丟包率的隨機時期。

伺服器沒有因 I/O 程序或 CPU 程序而過載,我是唯一使用它的人。

我嘗試過的事情都無濟於事。

  • 交換電纜
  • 交換路由器
  • 交換路由器上的埠
  • 刪除網路管理器(Ubuntu)
  • 禁用所有防火牆
  • 禁用iptables。
  • 手動重啟所有服務。

我正在考慮購買 PCIe NIC,但我想問問是否有我忽略的東西。

您可能想要驗證的一件事是網路上沒有其他機器/設備“竊取”伺服器 IP。除非您可以在您的網路設備中找到該資訊,否則始終可以選擇在該本地網路上的某個合適的伺服器上執行 arpwatch 守護程序。

由於兩個板載 NIC 都在失去數據包並且您進行了許多測試,因此剩下的唯一一個就是按照您的想法嘗試單獨的獨立卡。這將回答您的問題。

引用自:https://serverfault.com/questions/293609