Cisco-Ucs
Cisco UCS CPU 每天在同一時間出現故障
情況
- 最近從 2.2 升級到 3.1(1e)。
- 自升級以來,每天早上 6 點 51 分 (UTC+1),我安裝的 B200 系列刀片中的零到三個(大約 60 個)之間出現故障。
- 它總是相同的三個刀片,都在不同的機箱中。
- 這些故障表現為 SEL 中出現“CPU 預測故障”和“CATERR_N”消息的硬掛起。
- 對刀片進行電源循環可將其恢復為服務(至少在下一次故障之前)。
- UCSM 中沒有任何接近一天中的這個時間的一次性或重複的時間表。
- 思科 TAC 正在調查,但沒有解釋為什麼這些故障每天都在同一時間發生。
我的研究和懷疑
- 我有一個可行的理論,即這些是真正的硬體問題,韌體升級以某種方式暴露了這些問題。
- 故障排除指南中簡要提到了一種稱為“感測器掃描管理器”的東西,但我找不到關於它的作用或如何監控它的任何細節。
- 我幾乎排除了環境原因。我們的功率和溫度監視器當時沒有顯示任何異常情況。我們不在地震帶:-)
問題
為什麼每天都在同一時間發生故障?
這原來是韌體版本 3.1(1e) 中的一個錯誤(該連結需要 Cisco 帳戶)。它被描述為涉及 VIC 1340 和調試中斷的“罕見事件”。
之所以每天都在同一時間發生,是因為——
- 大量記憶體使用,其次是
- 跑步
lspci
,這正是 Puppet 每天早上都在做的事情(我們每天只執行一次)。
目前尚不清楚為什麼只有某些刀片會受到此錯誤的影響,但升級到版本 3.1(1h) 解決了該問題。