不穩定的 10Gb 銅纜鏈路、Broadcom 和 Intel 卡到 Cisco 4900M 交換機
我們購買了一些帶有 QLogic/Broadcom BCM57810 PCI Express 卡的 Dell PowerEdge R730 伺服器,並將它們連接到 Cisco 4900M 交換機 - 10Gb 鏈路無法可靠工作。他們有時會不連接,有時會在幾分鐘後連接,當他們連接時,他們一天會掉線幾次。斷開連接可能會持續 4 分鐘或 2 小時。
Cisco 交換機擁有與 Dell PowerVault SAN 的現有 10Gb 銅纜鏈路,這些鏈路已經穩定執行了數月。
我在 VMware 日誌中看到斷開連接的消息如下:
bnx2x 0000:82:00.1: vmnic5: NIC Link is Down
和
network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.
我看不到任何有用的錯誤程式碼或先前的消息,只有連結失去引起的消息。在 Windows 上,它顯示為斷開連接的卡,而在交換機上,它顯示為斷開連接的交換機埠。
當連結連接時,它們就會工作 - 巨型幀 ping、iSCSI 會話建立、數據儲存出現並找到所有路徑。但是連接是斷斷續續的。
我們檢查了:
電纜:
- 最初是 Cat5e 單根電纜,現在是 Cat6 結構化佈線。電纜總長度<7m。
- 用新電纜連接,主機切換,沒有更新檔/接頭,附近沒有其他電纜。
驅動程序/作業系統:
- 最初是 VMware ESXi 5.5 U2 Dell 建構(“ESXi 5.5.0, 2068190”),帶有 bnx2x 驅動程序版本 2.710.39.v55.2
- 然後從 vmware.com 更新驅動,bnx2x 版本 2.710.70.v50.7
- 然後是 ESXi 6.0,戴爾建構(“ESXi 6.0.0 2494585”),它具有 bnx2x 版本 2.712…
- 然後是 Windows Server 2012 R2 以及來自戴爾網站的最新驅動程序。
QLogic/Broadcom 網卡韌體;它是戴爾的最新版本,FFv7.12.17。
mtu 9000
交換機埠配置,很簡單switchport access vlan NNN
交換機埠
- 這些是 8 埠 10Gb RJ45 模組 (WS-X4908-10G-RJ45),每個交換機一個。SAN 佔用每個模組中的前四個埠,新伺服器佔用每個模組中剩餘的四個埠。這似乎會影響我們用於新伺服器的所有埠。所以它不是一個失敗的埠,也不是一個失敗的模組。
- 我沒有嘗試中斷 SAN 連接來測試這些埠,沒有特定理由認為埠 1-4 比 5-8 更可靠,這將是最後的手段。
交換機介面計數器,除了斷開連接沒有錯誤。
禁用 Windows QLogic/Broadcom 驅動程序中的各種解除安裝功能,並啟用 EnergyEfficientEthernet,強制卡為 10Gb 而不是自動檢測。
將相同的主機連接到相同的交換機到 1Gb 埠,這似乎工作正常,它們重複連接非常快。
交叉連接兩台主機,它們以 10Gb 的速度快速連接並保持穩定連接數天。
我們買了一張 Intel X540-t2 卡,並嘗試過。它的行為相同。
從那時起,我們購買了 Cat 6a 跳線並對其進行了測試,沒有任何變化。
我們打電話給戴爾支持,他們沒有發現任何問題,並表示交換機有故障,但由於交換機執行 10Gb 銅線連接到戴爾 PowerVault 儲存,據我所知,從我們的交換機監控日誌和 SAN事件日誌,這些連結不會失去,我不願意認為 Cisco 交換機是問題所在。
他們執行的不是最新的 IOS 15.1(1)SG2,但交換機是活躍且穩定的,我不想隨便更改韌體“以防萬一”。
這發生在多個伺服器、多個網卡、多個品牌的網卡、多個驅動程序版本、多個交換機上。它不能是一個有故障的硬體。這一切都在一個有空調、有電源的機架中。
這是我們第一次嘗試 VMware 主機以 10Gb 切換連接,因此我們沒有其他可以比較的配置或可以連接的硬體。
我們還能檢查什麼?
– 編輯:我們正在尋求升級交換機韌體,但我剛剛找到了一個相關連結 - 這似乎是 Cisco WS-X4908-10G-RJ45 模組和 Broadcom BCM57810 卡之間的已知問題,取決於 IOS 版本- https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay有很多相關討論,並導致:
https://tools.cisco.com/bugsearch/bug/CSCug68370
WS-X4908-10G-RJ45 和 Broadcom 57810S 10Gb BASE-T 互操作性問題
CSCug68370
描述
症狀:10Gbps BaseT 埠(在 WS-X4908-10G-RJ45 上)連接到具有 Broadcom 57810S DP 10Gb BASE-T 的 Dell 820 伺服器。在很長一段時間(最多 1 小時)後重新載入交換機或移除/重新安裝電纜埠或根本沒有出現。條件:1) 模組 WS-X4908-10G-RJ45 2) 版本 15.0(2)SG 到 15.0(2)SG7、15.1(2)SG 到 15.1(2)SG3 解決方法:降級到 12.2(54)SG
這不是完全相同的伺服器型號,也沒有提到英特爾卡,但問題是非常準確的匹配。
好吧,看起來這是 Cisco 錯誤https://tools.cisco.com/bugsearch/bug/CSCug68370併升級到“已知已修復”IOS 版本之一(15.1(2) SG4)似乎已修復它。
請更新您的 ESXi 主機。這是您在故障排除步驟中真正錯過的一件事。
您的 5.5 安裝已經快 1 年了!!
在撰寫本文時,ESXi 5.5 的目前版本是2718055。目前的 ESXi 6.0 內部版本號是2809209。
戴爾,惠普,沒關係……你仍然應該更新你的 ESXi 安裝。許多人忽略了這一點,這是我看到的環境中意外停機的第二常見原因。