Raid

突襲 10 性能問題

  • December 13, 2021

我正在為我們的業務設置鏡像儲存系統。

我們沒有預建的預算,所以我正在盡我所能獲得最大的收益。這是我們的硬體故障:

San1 和 San2 Windows Server 2019

SUPERMICRO MBD-H11SSL-I Amd Epyc 7251 8核CPU

64GB 記憶體 8GB x8

用於作業系統的 SSD 500GB

LSI 9380-8i8e

英特爾 10G 網卡,4 埠 - Iscsi 網路

英特爾 25G 網卡,2 埠 - 伺服器之間同步 - 巨型幀 - 9014。

1 個內部網卡 1G(數據),1 個 IPMI 在 MB 上使用

IW-RJ224-03 24bay SSD 機箱,裝有 24 個 2TB 三星 860 Pros,Raid10 配置。通過 2 條 sas 電纜連接到 9380 卡。

我們將使用 Starwind 來同步 2 個伺服器。

在設置 Starwind 的過程中,我一直在嘗試查看我們的同步性能 使用從 500G 到 5TB 的不同圖像大小

當同步開始時,寫入同步數據的系統幾乎無法使用。除非我關閉所有記憶體選項,否則係統會卡頓,性能監視器掛起,一切都執行得很糟糕。如果我啟用寫回或啟用磁碟記憶體,我注意到 numa 0 上的 Core0 100% 並且一切都向南……其他核心顯示很少,或者沒有使用,減去幾個。

我已經嘗試了各種驅動器設置組合來解決這個問題,但我現在無處可去。我肯定錯過了什麼。我已經在 2x8、6x4 和 4x6(標準 64k 條帶)設置中配置了陣列,認為這是一些驅動器限制阻礙了我,但我有 1 個實例,沒有出現任何問題,驅動器寫入了 5TB 同步沒有問題,並在一個小時內以完美的系統響應。當時在 4x6 陣列上啟用了兩個記憶體的情況下,它的速度超過了 1.6GB/s。我確實注意到那個時候 core0, numa0 幾乎是空閒的,而 core 2,numa 0 正在做繁重的工作。把所有東西都拿下來複製和重建,從那以後就被卡住了。現在,在關閉記憶體的情況下,每次傳輸的最大寫入量約為 600MB,而當它達到約 1GB/s 時,它會明顯掙扎。

任何可以幫助我指出正確方向的想法都值得讚賞!9380 上的韌體是最新的,Raid 卡驅動程序、網卡和 MB 組件都是最新的。

這裡有一些想法,可能有助於解決問題:

  1. 如果您使用某種 NIC-Teaming,它可能會以不可預知的方式影響 iSCSI 和複製的性能。大多數 SAN/VSAN 的供應商不支持 Teaming,而是推薦使用 MPIO。禁用 NIC 組合。
  2. 您提到了英特爾 25G 網卡。XXV710 型號可能存在啟用巨型幀的問題。禁用巨型幀並執行其他測試。
  3. 巨型幀值 9126 不是 Windows 作業系統的典型值,主要用於交換機。Windows 預設值為 9014。
  4. LSI 9380 在支持的驅動器列表中沒有三星 980 Pro。此外,980 Pro 是 NVMe 驅動器(不是 SATA)。你確定你有 980 Pro 嗎?

正如 BaronSamedi1958 提到的,我還建議聯繫 Starwind 的支持。

引用自:https://serverfault.com/questions/1085998