Lsi

LSI MegaRAID:“與 PD 通信時檢測到瞬態錯誤:-:-:1”是什麼意思?

  • May 29, 2015

我有一個在伺服器中執行的 LSI MegaRAID 9260-16i 卡,它一直在記錄錯誤

Controller ID: 0 Transient error detected while communicating with PD: -:-:1

我在任何地方(文件、Google、論壇等)都找不到有關此消息的任何資訊。這條消息是什麼意思?

顯然,此錯誤是由於使用的磁碟類型造成的。LSI 回復了我的支持票,內容如下:

SAMSUNG HD103UJ 未被認定為兼容硬碟。錯誤和隨後的超時事件是由桌面級硬碟驅動器使用的錯誤報告機制導致的通信問題引起的,該機制不適用於 RAID 功能。

我不知道這是一個問題,但是在測試了更多東西之後,我相信這確實是問題的根源。我已經更換了背板和 SAS 電纜,但沒有成功,並且我對作業系統虛擬磁碟(使用企業戴爾磁碟)和數據磁碟(使用桌面三星磁碟)進行了“壓力”測試,並且僅在執行“數據磁碟上的壓力”測試我是否收到這些錯誤。

因此,我認為除了實際購買企業級磁碟(例如 LSI 支持的“Western Digital® RE Enterprise 2TB”)之外,沒有其他方法可以解決這個問題。嘗試重用硬體就這麼多。

更新(2013 年 3 月 11 日)

該控制器使用 2 個陣列執行,一個使用 WD 企業磁碟的 RAID1 和一個使用 SAMSUNG 桌面磁碟的 RAID6。本週末 RAID1 陣列降級。日誌中充斥著我原始文章中提供的錯誤消息。奇怪的是 RAID1 陣列使用企業磁​​盤。是否真的是另一個陣列上的一個 SAMSUNG 磁碟存在問題,然後另一個陣列上的一個 WD 磁碟被逐出?這對我來說似乎是一種奇怪的行為。

更新(2015 年 5 月 29 日)

自從我處理這個問題以來已經有一段時間了。我認為實際原因與電源有關。我將所有 4 個背板連接到同一個電源連接器(使用分離器)。在峰值(功耗)時,由於無法提供足夠的功率,磁碟會“脫落”。我通過簡單地在兩個背板上拆分兩個電源連接器來解決這個問題。

引用自:https://serverfault.com/questions/482959