Linux

RDAC MPP 驅動程序不穩定路徑故障轉移錯誤

  • January 31, 2012

在我的中央系統日誌中,我可以看到來自 LSI 的 Linux 的 RDAC 多路徑驅動程序的以下錯誤的一些實例。

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1

還有一些實例

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 Illegal Request ASC/ASCQ 0x20/0x0, SKSBs 0x0/0x0/0x0

其次是

[RAIDarray.mpp]MY_NICE_STORAGE_ARRAY:1:0:10 IO FAILURE. vcmnd SN 887 pdev H2:C0:T0:L10 0x05/0x20/0x00 0x08000002 mpp_status:1

白天,我幾乎從 SAN 中的所有機器中獲取它,但不是一次全部獲取——通常在 5 小時內獲取其中一台。從今天開始,所有 FC 交換機和所有 FC HBA 均未顯示任何錯誤,並且當我檢查它們時,任何 LUN 的所有路徑都已啟動。性能(IOPS 和順序訪問)也非常好。有人見過這個嗎?

好吧, ASC/ASCQ 0x20/0x0轉換為無效的命令操作程式碼,也可能是“CDB 中的無效欄位”,例如此目標不支持此 cmd。我們不知道導致此後果的實際命令是什麼。為這個專有的 MP 驅動程序打開詳細調試可能會有所幫助。

供應商特定的多路徑驅動程序消息沒有多大幫助:

MY_NICE_STORAGE_ARRAY:1:0:7 Cmnd-failed try alt ctrl 0. vcmnd SN 2436 pdev H1:C0:T0:L7 0x05/0x94/0x01 0x08000002 mpp_status:1

0x02是設置為CHECK CONDITION的狀態字節,這意味著我們有問題,驅動程序字節是0x08,它可以是供應商想要的任何 iirc。我不知道0x05/0x94/0x01代表什麼,尋求支持。

看到這是 SAN 範圍的,並且假設您在所有這些設備上執行相同的 LSI RDAC MP 工具,我將集中精力解決 LSI MP 錯誤或 SAN 配置問題。我還會查看任何集群配置,並確保它們沒有被意外打開。

由於您使用的是 LSI mpath 驅動程序,因此您應該真正從他們的支持開始,並從那裡獲得支持。在這裡保持觀點很重要,因為到目前為止,這條消息沒有導致任何致命或有害的行為,這是你迄今為止衡量的。如果/當支持要求您重新組裝 SAN 時,請記住這一點;)。

引用自:https://serverfault.com/questions/211035