Dell

Windows 事件日誌中的 Dell Open Manage 消息,我應該擔心嗎?

  • October 8, 2012

我有一台帶有 SAS 6i/R 控制器和 RAID 1 中的兩個硬碟的 Dell T110 伺服器。Windows 事件日誌中偶爾會出現一條警告,其中包含以下消息:

SAS 埠報告:PHY 2 上的 SAS 寬埠 2 失去鍊接。:控制器 0(SAS 6/iR 適配器)

大約 20 秒後,出現以下資訊性消息:

SAS 埠報告:SAS 寬埠 2 在 PHY 2 上恢復了鏈路。:控制器 0(SAS 6/iR 適配器)

到目前為止,我還沒有註意到在此伺服器中執行的程序有任何中斷。這是控制器或磁碟未來出現問題的跡象嗎?你們有沒有人見過這樣的事情?

更新

昨天,在我發布這個問題 3 天后,RAID 1 設置失去了冗餘。在上述一系列消息之後,記錄了以下消息:

(10-07-2012 21:42:42) - 檢測到無效的 SAS 配置。詳細資訊:SAS 拓撲錯誤:無法定址設備。:控制器 0(SAS 6/iR 適配器)

(10-07-2012 21:42:45) - 已重置到設備 \Device\RaidPort0。

(10-07-2012 21:43:02) - 設備失敗:物理磁碟 0:2 控制器 0,連接器 0

(10-07-2012 21:52:59) - 驅動程序在 \Device\RaidPort0 上檢測到控制器錯誤。

(10-07-2012 21:53:02) - 冗餘失去:虛擬磁碟 1(虛擬磁碟 1)控制器 0(SAS 6/iR 適配器)

(10-07-2012 21:53:02) - 虛擬磁碟降級:虛擬磁碟 1(虛擬磁碟 1)控制器 0(SAS 6/iR 適配器)

(10-07-2012 21:53:02) - 由於目標物理磁碟上的錯誤,重建失敗。:物理磁碟 0:2 控制器 0,連接器 0

從這些消息中可以假設問題出在陣列的磁碟之一上。我現在正在使用戴爾線上診斷工具來測試磁碟。當其中一個磁碟完成測試時,另一個磁碟卡在 20%。所以我想我找到了罪魁禍首。

正如 Mitch 建議的那樣,我首先要確保您伺服器上的所有組件都安裝了最新的韌體和最新的驅動程序。我們有整個硬碟驅動器發生故障,因為它們沒有最新的韌體(事實上,連續 3 個,直到戴爾發現實際驅動器上的韌體已過期)。這與您的情況無關,但我試圖說明讓您的設備保持最新韌體不僅僅是“良好做法”。

只需在此處導航並輸入您的服務標籤: http: //www.dell.com/support/home/us/en/04/home2

多年來,我們一直在監控 DELL 事件,OpenManage 記錄的事件不應掉以輕心。您收到的警告很可能表明需要解決的問題。

您可能沒有註意到任何問題的原因是因為您正在執行 RAID 1。因此,即使完全斷開其中一個驅動器也不會導致任何明顯的問題,儘管它可能會導致 raid 重建(這將被記錄為好)。

如果您在更新所有驅動程序和韌體後仍然看到這些事件,我會關閉伺服器(如果可能),斷開並重新連接硬碟電纜。

如果問題仍然存在,那麼我會打電話給 DELL,因為它很可能是硬體問題,例如有缺陷的電纜、背板等。

引用自:https://serverfault.com/questions/434807