Cisco-Ucs

Cisco UCS CPU 每天在同一時間出現故障

  • October 6, 2016

情況

  • 最近從 2.2 升級到 3.1(1e)。
  • 自升級以來,每天早上 6 點 51 分 (UTC+1),我安裝的 B200 系列刀片中的零到三個(大約 60 個)之間出現故障。
  • 它總是相同的三個刀片,都在不同的機箱中。
  • 這些故障表現為 SEL 中出現“CPU 預測故障”和“CATERR_N”消息的硬掛起。
  • 對刀片進行電源循環可將其恢復為服務(至少在下一次故障之前)。
  • UCSM 中沒有任何接近一天中的這個時間的一次性或重複的時間表。
  • 思科 TAC 正在調查,但沒有解釋為什麼這些故障每天都在同一時間發生。

我的研究和懷疑

  • 我有一個可行的理論,即這些是真正的硬體問題,韌體升級以某種方式暴露了這些問題。
  • 故障排除指南中簡要提到了一種稱為“感測器掃描管理器”的東西,但我找不到關於它的作用或如何監控它的任何細節。
  • 我幾乎排除了環境原因。我們的功率和溫度監視器當時沒有顯示任何異常情況。我們不在地震帶:-)

問題

為什麼每天都在同一時間發生故障?

這原來是韌體版本 3.1(1e) 中的一個錯誤(該連結需要 Cisco 帳戶)。它被描述為涉及 VIC 1340 和調試中斷的“罕見事件”。

之所以每天都在同一時間發生,是因為——

  • 大量記憶體使用,其次是
  • 跑步lspci

這正是 Puppet 每天早上都在做的事情(我們每天只執行一次)。

目前尚不清楚為什麼只有某些刀片會受到此錯誤的影響,但升級到版本 3.1(1h) 解決了該問題。

引用自:https://serverfault.com/questions/777232