Raid

DL180 G6 - ESXI 6.0 - P410 - 無法訪問卷問題

  • October 26, 2016

我們有一個帶有 P410 RAID 卡的 DL180 G6 伺服器。伺服器具有以下三個 RAID 陣列。

4x2TB - RAID 10

4x2TB - RAID 10

2x2TB - RAID 1

2x2TB HD 配置為三個陣列的熱備件。

以下是 ESXCLI 的相關輸出

插槽 1 中的智能陣列 P410

Bus Interface: PCI
Slot: 1
Serial Number: PACCR9VYJKGQ
Cache Serial Number: PAAVP9VYJCYN
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 2.72
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60  min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Number of Ports: 2 Internal only
Driver Name: HP HPSA
Driver Version: 6.0.0
PCI Address (Domain:Bus:Device.Function): 0000:06:00.0
Host Serial Number: USE626N2XD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
Secondary Boot Volume: None

陣列 A(SATA,未使用空間:0 MB)

 logicaldrive 1 (3.6 TB, RAID 1+0, OK)

 physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK)
 physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK)
 physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK)
 physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK)
 physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
 physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

陣列 B(SATA,未使用空間:0 MB)

 logicaldrive 2 (3.6 TB, RAID 1+0, OK)

 physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK)
 physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK)
 physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK)
 physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK)
 physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
 physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

陣列 C(SATA,未使用空間:0 MB)

 logicaldrive 3 (1.8 TB, RAID 1, OK)

 physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK)
 physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK)
 physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare)
 physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare)

現在在 ESXI 中,我們不時會收到以下錯誤。

由於連接問題,無法訪問卷 5456cb3e-4fbdb59c-a37a-d8d385644ec0 (datastore2)。正在進行恢復嘗試

請記住,它會同時影響所有三個陣列,並且在幾秒鐘內所有三個陣列都會恢復。據了解,所有驅動器都連接到 P410 RAID 卡上的一個埠。您是否認為使用這兩個埠可以提高性能並有可能消除這個反復出現的問題?

此時我們已經嘗試了所有軟體解決方案,包括更新韌體(更新到 6.64)。還有什麼其他選擇?

更新 1

如上所述,兩個備用驅動器被配置為所有三個陣列的備用驅動器。我從所有陣列中移除了大約 15 分鐘的備件,並且錯誤停止了。現在我已經為第一個陣列配置了第一個備用,為第二個陣列配置了第二個備用,以查看錯誤是否再次出現。

更新 2

重新連接備件導致錯誤返回,並且影響所有三個陣列。因此,我將一一移除備件以進一步解決此問題。這可能是此處描述的已知問題:http: //community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ESXi5x-HPSA-P410i-WARNING-LinScsi-SCSILinuxAbortCommands-1843/td-p/6818369 . 手指交叉。

問題中發布的兩個更新和進一步的故障排除,引導我們找到問題的真正答案。我們發現它與 P410 RAID 卡的 ESXI 中的驅動程序有關。我們從http://h20564.www2.hpe.com/hpsc/swd/public/detail?swItemId=MTX_d18033ac346f468c92062ce127降級到驅動程序的 .60 版,問題得到解決。

請記住,包括 0.114、0.116 和最近發布的 0.118 在內的最新驅動程序均無效。因此,這是解決該問題的唯一軟體解決方案,除非您的問題與使用者 @ewwhite 所描述的硬體有關。

請記住,僅當您在 DL180G6 伺服器中使用帶有 P410 卡的備用驅動器時,才會出現此問題。我還看到其他 HP 伺服器也會出現這種情況的文章,因此您可以在這些伺服器上嘗試 .60 版本的驅動程序,看看它是否能解決您的問題。

在面對這個問題時,您可能還會看到磁碟延遲的周期性峰值,而伺服器上沒有任何相應的讀/寫負載,通過下圖可以更好地解釋這一點:

週期性延遲峰值

在上圖中,紅點表示連接備件時的周期性尖峰。綠點表示移除備用的時間段。

如上圖所示,延遲峰值與任何相應的讀/寫負載無關,並且是周期性的。在我們的例子中,這些發生的時間正好相隔五分鐘。備件一卸下,尖刺就停止了。

要降級到 .60 版本的驅動程序,請在正常關閉 VM 後將您的機器置於維護模式並發出以下命令

cd /tmp
wget http://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p964549618/v97400/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib
esxcli software vib install -v /tmp/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib

之後重新啟動您的伺服器。希望這可以幫助某人。當惠普為 P410 發布穩定版本的 HPSA 驅動程序時,我將更新此答案,這不會導致備用驅動器出現此問題。

引用自:https://serverfault.com/questions/775424