Datacenter

NOC 態勢感知

  • June 19, 2009

在我們的 NOC 中,我們保持對所有物理安全區域的態勢感知(反應影片源)、有關數據中心物理特徵的一些基本資訊、天氣和國家新聞源。您是否還有其他推薦 NOC 顯示器的東西,或者這是否足夠好。

這是一個相當廣泛的問題,但我假設我們正在避免服務或邏輯級別的監控(即 SSH 偵聽、網站正確響應、磁碟空間、CPU 使用率等)。

您的 NOC 應該同時進行持續的不干預監控以及定期的手動/注視監控。

持續監控:

  • 來自數據中心多個感測器的環境溫度/濕度
  • 數據中心所有電路的功耗
  • 交流單元的自我報告負載/健康狀況
  • 數據中心內部、所有數據中心入口和 NOC 區域入口的影片源
  • UPS電池狀態
  • 記錄數據中心的所有入口/出口(無論是刷卡還是手動登錄)
  • 交換機埠/路由器介面狀態事件(上/下/速度變化)

定期演練:

  • 機架關閉並鎖定
  • 任何聲音或視覺硬體警報(燈、音、狀態 LCD)
  • 地磚到位且狀況良好
  • 數據中心入口關閉並上鎖
  • 相機不受干擾
  • 數據中心內或周圍沒有意外訪客
  • 故障的燈、破碎的窗戶、損壞的門,以及任何使物理安全更容易被破壞的東西

另外,為什麼要打擾國家新聞提要?除非您的數據中心分佈在全國各地,否則收聽當地新聞台會更有意義。不過,這作為一個整體的價值是值得懷疑的,因為它將是一個非常高的雜訊:信號比。如果有的話,只需訂閱相關新聞媒體的 RSS 提要。

最後,這可能不是您想要的,但我發現在我的網路之外進行測試是非常寶貴的。使用小型和大型數據包測試幾個知名網路(Google、Yahoo、Microsoft 等)的高延遲或封包遺失,檢查常見網站的正確返回程式碼,並測量往返幾個流行免費郵件的電子郵件的往返延遲網站(雅虎、Hotmail、Gmail)在我的使用者開始打電話之前讓我解決了幾個微妙的問題。

引用自:https://serverfault.com/questions/28386