Cisco UCS CPU 每天在同一時間出現故障

October 6, 2016

情況
最近從 2.2 升級到 3.1(1e)。
自升級以來，每天早上 6 點 51 分 (UTC+1)，我安裝的 B200 系列刀片中的零到三個（大約 60 個）之間出現故障。
它總是相同的三個刀片，都在不同的機箱中。
這些故障表現為 SEL 中出現“CPU 預測故障”和“CATERR_N”消息的硬掛起。
對刀片進行電源循環可將其恢復為服務（至少在下一次故障之前）。
UCSM 中沒有任何接近一天中的這個時間的一次性或重複的時間表。
思科 TAC 正在調查，但沒有解釋為什麼這些故障每天都在同一時間發生。
我的研究和懷疑
我有一個可行的理論，即這些是真正的硬體問題，韌體升級以某種方式暴露了這些問題。
故障排除指南中簡要提到了一種稱為“感測器掃描管理器”的東西，但我找不到關於它的作用或如何監控它的任何細節。
我幾乎排除了環境原因。我們的功率和溫度監視器當時沒有顯示任何異常情況。我們不在地震帶:-)
問題
為什麼每天都在同一時間發生故障？

這原來是韌體版本 3.1(1e) 中的一個錯誤（該連結需要 Cisco 帳戶）。它被描述為涉及 VIC 1340 和調試中斷的“罕見事件”。
之所以每天都在同一時間發生，是因為——
大量記憶體使用，其次是
跑步lspci，
這正是 Puppet 每天早上都在做的事情（我們每天只執行一次）。
目前尚不清楚為什麼只有某些刀片會受到此錯誤的影響，但升級到版本 3.1(1h) 解決了該問題。

引用自：https://serverfault.com/questions/777232

Cisco UCS CPU 每天在同一時間出現故障

相關問答

無法訪問中集

主機如何定位 PXE 伺服器？

Cisco UCS 與 FC-AL 儲存陣列的兼容性

UCS C220 上沒有 RAID 控制器

使用 Cisco 12G SAS 模組化 Raid 控制器創建 RAID5

Windows Server 2008R2 因 RAM 過多而崩潰