Sas

診斷系統持續辨識 SATA 驅動器但拒絕辨識 SAS 驅動器或其替換?

  • October 25, 2018

我已經進行了相當多的故障排除,但我完全不知道會發生什麼。

硬體/平台

  • Supermicro X10SRi-F 主機板
  • EVGA 850W G2 PSU(Jonnyguru.com 上電源質量評級最高的電源之一)
  • 128GB Crucial DDR4 RDIMM
  • LSI 9211-8i PCIe HBA 快閃記憶體到最新的 P20-IT(來自 LSI/Avago 網站)
  • 8087-to-quad-SAS 連接器電纜(新:見這張圖片,電源側接受 SATA PSU 連接器的那種電纜)
  • 希捷 6TB SAS 硬碟(新:ST6000NM0054)
  • 各種其他 Seagate 3TB - 6TB SATA 驅動器(測試目的)

到目前為止的問題/故障排除

這是一個正在設置的新伺服器,因此所有組件都是新的,儘管之前已經測試了一些組件。

啟動時,HBA 無法辨識或報告 6TB SAS 驅動器(通過主 BIOS 或通過其自己的 OROM -> SAS 拓撲),並且 6TB 驅動器處於冷態且未啟動。沒有連接其他驅動器。系統的其餘部分工作正常,所以從表面上看,問題僅限於 HBA 損壞、電纜損壞或驅動器損壞中的一個或多個。

到目前為止的故障排除步驟:

  1. 使用四根電纜上的不同終結器連接 6TB SAS 驅動器,並將四根電纜連接到兩個 8087 埠。沒有變化 - 意味著問題不是一個特定的終結器或埠。
  2. 使用相同的電纜連接各種 Seagate 3TB-6TB SATA 驅動器(相同的製造商和類似的現代系列,以消除細微的兼容性問題(如果有))。在啟動時、在 8087 埠和所有 4 個終結器上以及在多次重新啟動時,所有這些都可以正常辨識、報告和旋轉——這意味著 HBA 和電纜都可以正常工作,至少對於 SATA 而言。(如果它們完美地適用於 SATA 而不是 SAS,那就奇怪了。)
  3. 保持相同的連接,但用 6TB SAS 驅動器替換了 SATA 驅動器,沒有改變任何其他東西。和以前一樣,HBA 沒有辨識或報告 6TB SAS 驅動器,也沒有啟動。
  4. 在基於華碩的台式機上使用不同的卡和平台 m-LSI 9260-8i RAID 控制器進行了完全相同的嘗試。再次,所有 SATA 驅動器立即辨識並啟動,但 6TB SAS 驅動器不是/沒有。
  5. 不情願地得出結論,儘管不太可能,但最可能的問題是 6TB SAS 驅動器 DOA 並對其進行了 RMA 處理。(“不情願”是因為我以前從未真正擁有過 DOA,驅動器通常是可靠的,如果它死了,那麼更常見/預期的是它至少被辨識但不起作用。我只是不能t 比完整的 DOA 更可能是一個問題。)
  6. 剛剛收到保修更換 - 並且得到與更換完全相同的症狀:(a) 當 6TB SAS 驅動器和任何 SATA 驅動器連接到 2 個終結器並且系統啟動時,SATA 驅動器立即被辨識、報告並啟動,而 6TB SAS 驅動器保持冷態和靜止。(b) 當 6TB SAS 和任何 SATA 驅動器連接到另一個華碩台式機中的 9260-8i RAID 卡時,SATA 驅動器同樣會立即被辨識,但 6TB SAS 驅動器保持冷態。
  7. 最後一步,重新閱讀 9211-8i HBA 使用者指南以防我第一次錯過任何內容,並重新檢查 BIOS。找不到任何似乎可以解釋這一點的東西,或者任何關於 SAS 驅動器將不會被辨識的聲明,除非/直到 <some action/content>。

第一次真的不相信這是 DOA。絕對不要相信它現在是 DOA。但如果不是,那麼它是什麼,我會錯過什麼?

我已經測試了組件鏈中的所有內容(AFAIK),HBA 沒有太多可能出錯的 OROM 介面,或者任何辨識 SATA/SAS/兩者的選項,或者類似的東西,以及主 PC/伺服器在這兩種情況下,只需將檢測留給 HBA/RAID 卡即可。我已經在兩個完全不同的平台上進行了測試,有兩種不同型號的控制器卡,SAS 與 SATA 驅動器,我完全被難住了。

(注意:當我開始從 SATA 過渡到 SAS 時,我受到了一些限制,目的是在 SAS 磨損時用 SAS 替換 SATA,所以目前我沒有任何其他 SAS 磁碟或電纜測試,否則我也會這樣做。但我想我可能已經通過在改變 SATA/SAS 時測試卡+電纜來解決這個問題)

更新了更準確的標題以幫助他人,現在獲得了更多資訊。見答案。

我與德國的 LSI(現為 Avago)進行了儲存技術支持的交談。他們認為,如果 2 台不同機器中的 2 種不同類型的“已知良好”控制器都辨識所有 sata 而不是這個 sas 驅動器(在任何埠和連接器上),那麼它很可能是驅動器。

他們還建議進行進一步的測試 - 僅連接驅動器的電源側(不是 HBA/主機板/數據線)並打開伺服器。(他警告我這會“聽起來很瘋狂”!)顯然,就像 SATA 一樣,如果數據端未連接,SAS 驅動器在首次通電時會旋轉*(我不知道,想知道交錯啟動是如何工作的?)*,提供一個非常好的測試,它只依賴於 PSU 和驅動器的供電,沒有別的。

果然,SATA 驅動器都啟動了,這個驅動器沒有。他覺得這足以“幾乎肯定”這是第二次糟糕的駕駛,儘管不太可能,但不花錢。序列號也幾乎與原來的啞驅動器相同(1 位變化);所以他還建議與製造商交談,並提出問題,如果他們有任何其他類似的報告與此驅動器有關,因為它可能是一個壞批次。

2017 年 4 月更新:

我想了一會兒,問題是需要禁用 LSI 9211 BIOS,基於線上執行緒。我禁用了bios,它確實有效……但後來當我移動盒子時它停止工作,我不知道為什麼。我將此資訊帶回 LSI 技術支持,他們說 BIOS 不可能是問題或禁用它可能會有所幫助。他們認為移動盒子很可能會解除偶然的電纜工作並將其轉回不工作狀態。

他們說要嘗試新的“前向”或“扇出”電纜,特別是 Adaptec(另一方面,因為它是競爭對手!!)對於 SAS,它比大多數電纜更可靠。他們說,電纜是否正確,並不總是很清楚或標記,並要仔細檢查。

所需的確切 SAS 電纜將根據 HDD 和卡的介面而有所不同。9211 有一個 SFF-8087 連接,我的硬碟有一個 SFF-8082 連接(看起來有點像 SATA,但電源和數據埠連接)。

我懷疑它是電纜(因為電纜在電氣相似的 SATA 上確實可以正常工作),但繼續聯繫了 Adaptec,後者評論說,從確定到底哪種電纜是需要。他們檢查了卡規格和 HDD 規格,並在亞馬遜上推薦了他們的 2275300-R,令我驚訝的是它第一次工作,所以我想他們一定知道他們在說什麼。

引用自:https://serverfault.com/questions/816460