Memory

伺服器級硬體需要燒錄記憶體嗎?

  • March 18, 2020

考慮到許多伺服器級系統都配備了ECC RAM的事實,在部署之前燒入記憶體 DIMM是否有必要或有用?

我遇到了一個環境,​​其中所有伺服器 RAM 都是通過冗長的老化/壓力測試過程放置的。這有時會延遲系統部署並影響硬體傳遞時間。

伺服器硬體主要是Supermicro,因此 RAM 來自多家供應商;不是直接來自製造商,如Dell PoweredgeHP ProLiant

這是一個有用的練習嗎?根據我過去的經驗,我只是使用開箱即用的供應商 RAM。POST記憶體測試不應該擷取 DOA 記憶體嗎?我早在 DIMM 實際發生故障之前就對 ECC 錯誤做出了響應,因為 ECC 門檻值通常是保修安排的觸發因素。

  • 你燒你的記憶體嗎?
  • 如果是這樣,您使用什麼方法來執行測試?
  • 它是否在部署之前發現了任何問題?
  • 與不執行該步驟相比,老化過程是否導致任何額外的平台穩定性?
  • RAM 添加到現有正在執行的伺服器時,您會怎麼做?

我找到了 Kingston 的一份文件,詳細說明了他們如何使用伺服器記憶體,我相信這個過程通常對於大多數知名製造商來說都是一樣的。記憶體晶片以及所有半導體器件都遵循一種特定的可靠性/故障模式,即浴缸曲線:

在此處輸入圖像描述

時間在橫軸上表示,從工廠發貨開始,一直持續到三個不同的時間段:

  • 早期故障:大多數故障發生在早期使用期間。但是,隨著時間的推移,失敗的數量會迅速減少。黃色顯示的早期生命失敗期約為 3 個月。
  • 使用壽命:在此期間,故障極為罕見。使用壽命以藍色顯示,估計為 20 年以上。
  • 報廢故障:最終,半導體產品會磨損並出現故障。生命週期結束以綠色顯示

現在因為金士頓注意到前三個月會出現高故障率(在這三個月之後,該設備被認為是好的,直到它在大約 15 - 20 年後 EOL)。他們使用名為 KT2400 的單元設計了一個測試,該單元在 100 攝氏度的高壓下對**伺服器記憶體模組進行 24 小時的殘酷測試,通過該單元連續執行每個 DRAM 晶片的所有單元;**這種高水平的壓力測試會使模組至少老化三個月(正如在大多數模組出現故障的關鍵時期之前所指出的那樣)。

結果是:

2004 年 3 月,金士頓開始了為期 6 個月的試用,其中 100% 的伺服器記憶體在 KT2400 中進行了測試。密切監測結果以衡量失敗的變化。2004 年 9 月,在對所有測試數據進行匯總和分析後,結果表明故障減少了 90%。這些結果超出了預期,代表了已經處於同類頂級產品線的顯著改進。

那麼為什麼燒入記憶體對伺服器記憶體沒有用呢?很簡單,因為它已經由您的製造商完成了!

引用自:https://serverfault.com/questions/518239