Hyper-V

HP ProLiant Gen9 的 MTTF、MTBF、MTBR 和 MTBF

  • January 12, 2018

我一直在研究在我們的生產環境中執行的 HP Gen9 伺服器的 MTTF、MTBF、MTBR 和 MTBF。

我的問題的根源,應該擔心與否。

我似乎無法獲得任何好的數據,因為每台伺服器都有硬體組合。

在我上一家公司,我們執行了大約 2000 台戴爾伺服器 r210 r410 r710 我會說平均每天大約有 5 台伺服器出現某種故障。因此,大約 0.25% 的伺服器出現嚴重故障,需要更換元件才能再次使用。

我上一家公司的一切都設置在 HA 對、N+2 基礎架構中,因此對生產沒有影響。我們能夠更換伺服器並繼續前進

在我現在的辦公室,我們執行 9 台伺服器(HP Gen9,56 台 VM 的 Hyper-V),我們手頭沒有很多替換元件,而且數據中心也沒有管理,所以如果有東西死了,我們必須開車大約 45 分鐘才能更換任何事物。

我的 CTO 和 IT 經理似乎很擔心,去年他們有大約 2.5 天的停機時間,我一直在預測我們需要對伺服器進行集群,但他們認為沒有必要。

這裡有錯還是對?不知道該怎麼辦。

我知道,如果 CTO 出了什麼事,那不是我的責任。這是一家非常小的公司,只有 CTO、IT 經理、我自己(開發人員)和 1 個幫助台人員。

總體而言,執行生產環境的經驗非常有限,很多東西的設置方式我稱之為初級水平,在我到達那里之前,我的 CTO 和 IT 經理都不太了解集群。他們正在進行一個沒有 HA 的 DR 設置項目,我預言了這一點但失敗了。

不必擔心 MTTF、MTBF、MTBR 和 MTBF 數據……為什麼這些數據適用於您的環境細節?

伺服器具有內部冗餘,並且在生產中可以非常穩定。但這取決於您的環境、磁碟陣列/組成、磁碟類型、RAM 數量、CPU 配置、熱特性、功率等。

採用某種形式的高可用性可以減少停機的可能性,並為您提供一個在發生故障時轉移工作負載的地方。

這是一個財務和操作風險問題。

也許從獨立到集群的增量成本太高以至於沒有商業意義?也許 2.5 天的停機時間(約 99.3% 的可用性)足以滿足您的操作。您應該專注於異地保護和良好的備份。您的所有 HP Gen9 系統今天都在製造商保修期內,因此您可以使用元件。如果您有 RAID、冗餘電源/風扇和穩定的電源,那麼您已經涵蓋了最關鍵的領域。

從財務角度考慮這一點,並概述風險、相關成本,並嘗試為您想要的東西製作一個令人信服的商業案例。

引用自:https://serverfault.com/questions/892005