Outage

您參與的主要中斷是什麼?

  • April 7, 2011

中斷是我們試圖避免的一些事情,但它們是不可避免的:它們會發生(我們希望很少發生),我們必須知道如何處理它們(並從中學習)。

那麼,您參與的主要中斷是什麼?你和你的團隊是如何處理這個問題的?你為未來學到了什麼?請分享你的想法:)

我幾乎每天都“參與”中斷(監控 44 個站點的 WAN 連結)。“小的”是那些不到 5 分鐘的,並且大部分時間都被“忽視”(由於某種原因,NOC 只監控超過 5 分鐘的中斷)。我嘗試與該站點進行通信以查看它是否是內部問題,並在問題為“未知”時檢查路由器日誌。

我發現在處理中斷時,**溝通是關鍵(這是輕描淡寫的!)。**在您進行故障排除或試圖找出究竟發生了什麼時,不要等待被呼叫。確保你傳達你知道他們已經失敗並且你正在努力。給他們一個時間框架,您將在何時回复他們,向他們提供有關情況的最新資訊 (ETR)。不要讓他們認為你已經忘記了他們,確保他們知道有人在看他們的問題。你打電話給他們,所以他們不必打電話給你。

值得慶幸的是,在我的監督下,一個網站最長的停機時間是 7 小時(這是在工作日上午 10 點到下午 5 點之間)。如果不是因為所有相關方之間缺乏良好的溝通,它應該會縮短幾個小時。基本上,問題沒有正確升級,並且由於假設“有人正在處理它”,這個問題(相對於網站而言)永遠得到解決。

引用自:https://serverfault.com/questions/146086