Disaster-Recovery

允許在營業時間內進行生產維護

  • January 22, 2016

我最近開始管理一家小型初創公司。作為大多數小型初創公司,我認為,當我們認為還可以時,我們實際上一直在做我們想做的事情。人們很小心,事情進展得很好。我們也能夠很快解決客戶非常感激的事情。

但是昨天我們遇到了一個問題,管理員自己決定更改伺服器名稱並更新軟體以使其更符合實際情況。開發人員收到了通知,但是名稱更改殺死了我們的消息隊列系統,這反過來又使我們關閉了幾個小時。由此產生了一系列級聯故障,託管消息隊列的虛擬機實際上必須被殺死並創建一個新的虛擬機。沒有人高興。

這應該首先在非生產環境中進行驗證。

我想知道在業務關鍵時期允許在生產中進行哪些維護?有些我會想像但是多少?

只要不影響業務系統,可以隨時進行維護。

在您的問題導致嚴重失敗的情況下,問題不是無法完成,而是您沒有通知更改過程或管理員沒有遵循它。名稱更改的事實並未傳達給負責服務正常執行時間的人員。如果管理員是服務所有者(並且很可能在小型企業中),那麼需要檢查他是否適合該角色,因為這是他的工作,以確定影響其服務的任何更改的影響。

測試環境很好,但除非嚴格維護,否則無法證明所有問題。雖然在測試中測試更改當然是一種最佳實踐,但它不能替代退出計劃(也應該進行測試)。

最後要在這裡學到的另一個教訓是,開發人員不是管理員。我懷疑正如您所說的“已通知開發人員”。我敢打賭,他們沒有被問到“如果機器名稱更改會發生什麼?”。我至少會收到一封來自開發人員的電子郵件,說明更改機器名稱不會影響應用程序。

引用自:https://serverfault.com/questions/751082