熱備主機與冷備主機?
我們有幾個主機,我們有一個相同的熱備用主機,它經過修補和更新,因此非常接近相同的軟體和配置。如果發生故障,網路電纜會被切換,並且 DHCP 伺服器會使用新的 MAC 地址進行更新。這是最好的情況,因為通常還有更多需要修改的地方。
我覺得有一個熱備主機很浪費電,維護它也很浪費時間,而且由於在故障轉移的情況下需要修改配置,所以我想問一下:
熱備用主機是老派嗎?現在有更好的方法嗎?
與其擁有熱備用主機,不如將其設為冷備用,將硬碟驅動器放入主主機並將 RAID 從 1 更改為 1+1 是否有意義。如果出現故障,我所要做的就是更換網線,更新 DHCP 伺服器,取出硬碟驅動器並將它們插入冷備份並打開電源。在我看來,好處是 2x2 磁碟始終保持同步,因此在故障轉移時只需要維護一台主機並且不需要更改配置。
這是一個好主意嗎?
Sobrique 解釋了手動干預如何使您提出的解決方案達到最優,而ewwhite 談到了各種組件的故障機率。這兩個國際海事組織都提出了很好的觀點,應該予以強烈考慮。
然而,到目前為止似乎沒有人評論過一個問題,這讓我有點驚訝。您提議:
製作
$$ the current hot spare host $$冷備份,取出硬碟並將它們放入主主機並將 RAID 從 1 更改為 1+1。
這並不能保護您免受作業系統在磁碟上執行的任何操作。
它只是真正保護您免受磁碟故障的影響,通過從鏡像 (RAID 1) 移動到鏡像的鏡像 (RAID 1+1),您可以大大減少一開始的影響。通過增加每個鏡像集中的磁碟數量(例如,從 2 磁碟 RAID 1 到 4 磁碟 RAID 1),您可以獲得相同的結果,並且很可能會提高普通操作期間的讀取性能。
那麼,讓我們看看這可能會失敗的一些方法。
- 假設您正在安裝系統更新,並且某些原因導致該過程中途失敗;可能是電源和 UPS 出現故障,或者您發生了異常事故並遇到了嚴重的核心錯誤(Linux 現在非常可靠,但仍然存在風險)。
- 也許更新引入了您在測試期間沒有發現的問題(您會測試系統更新,對嗎?),需要在修復主系統時故障轉移到輔助系統
- 也許文件系統程式碼中的錯誤會導致虛假的、無效的磁碟寫入。
- 也許一個粗心的(甚至是惡意的)管理員會做
rm -rf ../*
或rm -rf /*
代替rm -rf ./*
.- 也許您自己的軟體中的錯誤會導致它大量損壞數據庫內容。
- 也許病毒設法潛入。
也許,也許,也許……(我敢肯定,您提出的方法可能會失敗的方式還有很多。)但是,最終這歸結為您的“兩組始終同步”“優勢”。有時您不希望它們完全同步。
根據具體發生的情況,您需要準備好熱備或冷備來打開和切換,或者進行適當的備份。無論哪種方式,如果故障模式涉及除硬體儲存設備故障(磁碟崩潰)之外的任何其他問題,鏡像的 RAID 鏡像(或 RAID 鏡像)都不會為您提供幫助。像 ZFS 的 raidzN 這樣的東西在某些方面可能會做得更好,但在其他方面卻一點也不好。
對我來說,如果意圖是任何類型的災難故障轉移,這將使您提出的方法從一開始就無法實施。