High-Availability

小型企業的高伺服器可用性

  • August 29, 2009

在對一天早上無法啟動的伺服器感到害怕之後,高層決定業務需要高可用性/故障轉移設置。

我們有 5 台主要伺服器(4 個 Linux,1 個 OpenBSD),所有這些伺服器都需要執行才能讓公司運營。其中三台伺服器相當標準(文件/Web/數據庫),第四台處理大多數網路路由和網路代理,而第五台支持我們的電話系統並具有非標準硬體。

我的老闆說伺服器故障的周轉時間應該在 30 分鐘以內。

我在這個領域的經驗是不存在的(我只是一個被“提拔”的程序員),所以我想我的問題真的可以歸結為:

  • 這是否應該由具有平均伺服器管理技能的人嘗試。如果是這樣,我應該讀什麼,我應該和誰談談?

謝謝。

我認為你應該首先收集數字來描述與滿足所述“要求”相關的成本,看看它是否在預算範圍內。如果您對用於滿足要求的所有“正常”方法(故障轉移集群、具有“熱遷移”功能的虛擬機管理程序等)不滿意,那麼您最好找一位可以幫忙。

可行性研究會產生一些成本,但發現一個好的解決方案不符合規定的要求(這意味著管理層需要更現實地設定期望——或者他們需要花更多的錢)而不是做一些半途而廢的事情,最終根本無法滿足要求並在此過程中浪費大量資金。

聽起來你的老闆剛剛把這個數字從空中拉了出來。也許他做了一些分析,並且知道與各種系統停機時間相關的每小時成本是多少,但我對此表示懷疑。這聽起來像是一些與現實無關的天上掉餡餅的數字。如果您的所有系統都需要這種可用性,我會感到驚訝。在研究業務的過程中,您可能會發現只有一部分功能需要具有如此程度的正常執行時間和容錯能力(因此,這樣的解決方案最終成本會更低)。我確信電話和業務線應用程序都在那裡,但您可能對其他一些系統的停機時間有一定的容忍度。

我的直覺告訴您,您可能會在使用虛擬化技術創建基於虛擬機在冗餘硬體之間遷移的故障轉移系統方面取得成功。它是否符合您的預算將取決於您的業務,因為您肯定需要某種類型的 SAN 才能有效地工作。

不過,不要忽視“傳統”故障轉移集群。如果您的應用程序非常適合這種配置,那麼肯定也會有“勝利”。

我想知道你的老闆是否考慮過災難性的故障場景(建築物燒傷、洪水、龍捲風、盜竊等)。如果這還沒有計劃好,這將是在一些一般業務連續性計劃和災難恢復應急中工作的黃金機會。

從可以進來研究您的業務並提出建議的人那裡獲得一些幫助。你不會後悔的。

引用自:https://serverfault.com/questions/58244