Linux

熱備主機與冷備主機?

  • July 11, 2014

我們有幾個主機,我們有一個相同的熱備用主機,它經過修補和更新,因此非常接近相同的軟體和配置。如果發生故障,網路電纜會被切換,並且 DHCP 伺服器會使用新的 MAC 地址進行更新。這是最好的情況,因為通常還有更多需要修改的地方。

我覺得有一個熱備主機很浪費電,維護它也很浪費時間,而且由於在故障轉移的情況下需要修改配置,所以我想問一下:

熱備用主機是老派嗎?現在有更好的方法嗎?

與其擁有熱備用主機,不如將其設為冷備用,將硬碟驅動器放入主主機並將 RAID 從 1 更改為 1+1 是否有意義。如果出現故障,我所要做的就是更換網線,更新 DHCP 伺服器,取出硬碟驅動器並將它們插入冷備份並打開電源。在我看來,好處是 2x2 磁碟始終保持同步,因此在故障轉移時只需要維護一台主機並且不需要更改配置。

這是一個好主意嗎?

Sobrique 解釋了手動干預如何使您提出的解決方案達到最優,而ewwhite 談到了各種組件的故障機率。這兩個國際海事組織都提出了很好的觀點,應該予以強烈考慮。

然而,到目前為止似乎沒有人評論過一個問題,這讓我有點驚訝。您提議:

製作

$$ the current hot spare host $$冷備份,取出硬碟並將它們放入主主機並將 RAID 從 1 更改為 1+1。

這並不能保護您免受作業系統在磁碟上執行的任何操作。

它只是真正保護您免受磁碟故障的影響,通過從鏡像 (RAID 1) 移動到鏡像的鏡像 (RAID 1+1),您可以大大減少一開始的影響。通過增加每個鏡像集中的磁碟數量(例如,從 2 磁碟 RAID 1 到 4 磁碟 RAID 1),您可以獲得相同的結果,並且很可能會提高普通操作期間的讀取性能。

那麼,讓我們看看這可能會失敗的一些方法。

  • 假設您正在安裝系統更新,並且某些原因導致該過程中途失敗;可能是電源和 UPS 出現故障,或者您發生了異常事故並遇到了嚴重的核心錯誤(Linux 現在非常可靠,但仍然存在風險)。
  • 也許更新引入了您在測試期間沒有發現的問題(您會測試系統更新,對嗎?),需要在修復主系統時故障轉移到輔助系統
  • 也許文件系統程式碼中的錯誤會導致虛假的、無效的磁碟寫入。
  • 也許一個粗心的(甚至是惡意的)管理員會做rm -rf ../*rm -rf /*代替rm -rf ./*.
  • 也許您自己的軟體中的錯誤會導致它大量損壞數據庫內容。
  • 也許病毒設法潛入。

也許,也許,也許……(我敢肯定,您提出的方法可能會失敗的方式還有很多。)但是,最終這歸結為您的“兩組始終同步”“優勢”。有時您不希望它們完全同步。

根據具體發生的情況,您需要準備好熱備或冷備來打開和切換,或者進行適當的備份。無論哪種方式,如果故障模式涉及除硬體儲存設備故障(磁碟崩潰)之外的任何其他問題,鏡像的 RAID 鏡像(或 RAID 鏡像)都不會為您提供幫助。像 ZFS 的 raidzN 這樣的東西在某些方面可能會做得更好,但在其他方面卻一點也不好。

對我來說,如果意圖是任何類型的災難故障轉移,這將使您提出的方法從一開始就無法實施。

引用自:https://serverfault.com/questions/611242