Availability

如何在應用程序停機期間管理通信?

  • January 17, 2016

最近我從供應商和我自己的應用程序中獲得了很多關於應用程序停機的經驗。這讓我開始思考,盡我所能在Google上搜尋,在停機事件期間管理客戶溝通並沒有真正好的或標準的方法。

*從“責備我們以外的所有人”“我們搞砸了,我們很抱歉”*的方法,我已經看到了很多方法。

所以我的問題是……當你搞砸應用程序並導致停機時:

  1. 你會立即認錯嗎?(你應該合法嗎?)
  2. 您向客戶提供了多少關於出了什麼問題的資訊?(“一個問題”與“我們的一個 SQL 查詢中的程式碼語法錯誤”)
  3. 你是帶著後續的預防計劃回來的,還是只是把它留在“已經解決”?
  4. 你們提供實時更新嗎?多常?通過 Twitter 或面向公眾的網站?

您發現任何其他成功的最佳實踐?

這是我所做的:

  • 非常清楚地說明後果是什麼(現在和不久的將來)。強調可能的永久性後果或缺乏永久性後果(數據失去、員工工時損失)。
  • 保持音調非常中性。不要把精力花在責備/內疚上。理想情況下,這傳達了“我想給你資訊,但其他地方也需要我的注意力”。
  • 您的通知將轉發給很多人,請確保您的 CEO 了解前半段的要點。通常我會提供一個“執行摘要”。技術細節可以為其他技術人員提供背景資訊。
  • 提供聯繫方式(最好是有時間處於停機時間的人)以獲取更多問題,並在同一句話中耐心詢問(這通常有效)。
  • 當情況發生變化時,Promise 會更新。

當有好消息時發送更新,在辦公室關閉時間之前(“所有員工將通宵工作” - 如有必要,請考慮時區)並在辦公室開放時間前後再次發送更新。

當問題解決後(對於該詞的任何定義),發送:

  • 包括後果時間安排的摘要
  • 短期內採取並為未來計劃的行動/變化(“經驗教訓”);基於:
  • 技術根源分析

將任何指責、內疚或私刑的電話放在單獨的郵件中,最好在一段時間後進行。

在停機期間不要承諾任何事情,除非你真的非常確定你可以傳遞。不知何故,兩個單獨的“壞消息”情況比一個長的情況更糟糕。

我更喜歡使用在每條消息(郵件、Twitter 等)上推送通知的媒體

引用自:https://serverfault.com/questions/168606