Vmware-Esxi

不穩定的 10Gb 銅纜鏈路、Broadcom 和 Intel 卡到 Cisco 4900M 交換機

  • August 11, 2015

我們購買了一些帶有 QLogic/Broadcom BCM57810 PCI Express 卡的 Dell PowerEdge R730 伺服器,並將它們連接到 Cisco 4900M 交換機 - 10Gb 鏈路無法可靠工作。他們有時會不連接,有時會在幾分鐘後連接,當他們連接時,他們一天會掉線幾次。斷開連接可能會持續 4 分鐘或 2 小時。

Cisco 交換機擁有與 Dell PowerVault SAN 的現有 10Gb 銅纜鏈路,這些鏈路已經穩定執行了數月。

我在 VMware 日誌中看到斷開連接的消息如下:

bnx2x 0000:82:00.1: vmnic5: NIC Link is Down

network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.

我看不到任何有用的錯誤程式碼或先前的消息,只有連結失去引起的消息。在 Windows 上,它顯示為斷開連接的卡,而在交換機上,它顯示為斷開連接的交換機埠。

當連結連接時,它們就會工作 - 巨型幀 ping、iSCSI 會話建立、數據儲存出現並找到所有路徑。但是連接是斷斷續續的。

我們檢查了:

  • 電纜:

    • 最初是 Cat5e 單根電纜,現在是 Cat6 結構化佈線。電纜總長度<7m。
    • 用新電纜連接,主機切換,沒有更新檔/接頭,附近沒有其他電纜。
  • 驅動程序/作業系統:

    • 最初是 VMware ESXi 5.5 U2 Dell 建構(“ESXi 5.5.0, 2068190”),帶有 bnx2x 驅動程序版本 2.710.39.v55.2
    • 然後從 vmware.com 更新驅動,bnx2x 版本 2.710.70.v50.7
    • 然後是 ESXi 6.0,戴爾建構(“ESXi 6.0.0 2494585”),它具有 bnx2x 版本 2.712…
    • 然後是 Windows Server 2012 R2 以及來自戴爾網站的最新驅動程序。
  • QLogic/Broadcom 網卡韌體;它是戴爾的最新版本,FFv7.12.17。

  • mtu 9000交換機埠配置,很簡單switchport access vlan NNN

  • 交換機埠

    • 這些是 8 埠 10Gb RJ45 模組 (WS-X4908-10G-RJ45),每個交換機一個。SAN 佔用每個模組中的前四個埠,新伺服器佔用每個模組中剩餘的四個埠。這似乎會影響我們用於新伺服器的所有埠。所以它不是一個失敗的埠,也不是一個失敗的模組。
    • 我沒有嘗試中斷 SAN 連接來測試這些埠,沒有特定理由認為埠 1-4 比 5-8 更可靠,這將是最後的手段。
  • 交換機介面計數器,除了斷開連接沒有錯誤。

  • 禁用 Windows QLogic/Broadcom 驅動程序中的各種解除安裝功能,並啟用 EnergyEfficientEthernet,強制卡為 10Gb 而不是自動檢測。

  • 將相同的主機連接到相同的交換機到 1Gb 埠,這似乎工作正常,它們重複連接非常快。

  • 交叉連接兩台主機,它們以 10Gb 的速度快速連接並保持穩定連接數天。

  • 我們買了一張 Intel X540-t2 卡,並嘗試過。它的行為相同。

  • 從那時起,我們購買了 Cat 6a 跳線並對其進行了測試,沒有任何變化。

我們打電話給戴爾支持,他們沒有發現任何問題,並表示交換機有故障,但由於交換機執行 10Gb 銅線連接到戴爾 PowerVault 儲存,據我所知,從我們的交換機監控日誌和 SAN事件日誌,這些連結不會失去,我不願意認為 Cisco 交換機是問題所在。

他們執行的不是最新的 IOS 15.1(1)SG2,但交換機是活躍且穩定的,我不想隨便更改韌體“以防萬一”。

這發生在多個伺服器、多個網卡、多個品牌的網卡、多個驅動程序版本、多個交換機上。它不能是一個有故障的硬體。這一切都在一個有空調、有電源的機架中。

這是我們第一次嘗試 VMware 主機以 10Gb 切換連接,因此我們沒有其他可以比較的配置或可以連接的硬體。

我們還能檢查什麼?

編輯:我們正在尋求升級交換機韌體,但我剛剛找到了一個相關連結 - 這似乎是 Cisco WS-X4908-10G-RJ45 模組和 Broadcom BCM57810 卡之間的已知問題,取決於 IOS 版本- https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay有很多相關討論,並導致:

https://tools.cisco.com/bugsearch/bug/CSCug68370

WS-X4908-10G-RJ45 和 Broadcom 57810S 10Gb BASE-T 互操作性問題

CSCug68370

描述

症狀:10Gbps BaseT 埠(在 WS-X4908-10G-RJ45 上)連接到具有 Broadcom 57810S DP 10Gb BASE-T 的 Dell 820 伺服器。在很長一段時間(最多 1 小時)後重新載入交換機或移除/重新安裝電纜埠或根本沒有出現。條件:1) 模組 WS-X4908-10G-RJ45 2) 版本 15.0(2)SG 到 15.0(2)SG7、15.1(2)SG 到 15.1(2)SG3 解決方法:降級到 12.2(54)SG

這不是完全相同的伺服器型號,也沒有提到英特爾卡,但問題是非常準確的匹配。

好吧,看起來這是 Cisco 錯誤https://tools.cisco.com/bugsearch/bug/CSCug68370併升級到“已知已修復”IOS 版本之一(15.1(2) SG4)似乎已修復它。

請更新您的 ESXi 主機。這是您在故障排除步驟中真正錯過的一件事。

您的 5.5 安裝已經快 1 年了!!

在撰寫本文時,ESXi 5.5 的目前版本2718055。目前的 ESXi 6.0 內部版本號是2809209

戴爾,惠普,沒關係……你仍然應該更新你的 ESXi 安裝。許多人忽略了這一點,這是我看到的環境中意外停機的第二常見原因。

引用自:https://serverfault.com/questions/710560