Maintenance

伺服器正常執行時間報告和跟踪

  • March 23, 2015

我的部門維護著 6 台執行 Windows Server 2003 和 Ubuntu Server 的伺服器。

我們必須報告和跟踪我們的正常執行時間。我相信我們必須有 95% 的正常執行時間,而且我們沒有真正的方法來跟踪和報告這些數據。目前,我們只是使用文本文件手動執行此操作並估計停機時間。

有哪些工具可以幫助完成這項任務,或者您目前如何報告和跟踪您的伺服器正常執行時間?

啊,我最喜歡的話題之一。

首先,您需要定義“正常執行時間”。

你的意思是伺服器正在執行?(在這種情況下,只需在腳本中定期 ping 它)。

或者你的意思是應用程序正在執行?(定期連接到應用程序的“首頁”,假設它是一個網路應用程序)

或者您的意思是應用程序正在提供它應該提供的業務服務?(在這種情況下,您需要執行某種合成事務。

我認為只有最後一個在任何意義上都是正確的。其他的在技術上更容易做到,但與“這台伺服器是否為業務提供價值”並沒有真正的關聯。

如果您點擊我添加的連結,您將看到,有許多公司銷售這樣做的解決方案,或者您可以自己推出。我曾使用過 NetIQ 的產品和 Microsoft MOM(兩者有共同的歷史),但我相信其他人也能正常工作。

當您選擇工具時,請考慮如何考慮計劃的升級和維護期 - 一種天真的方法會將這些記錄為停機時間。

此外,95% 的要求非常低——相當於每天 72 分鐘的停機時間,或每週超過 8 小時的停機時間。例如,嘗試在每個星期四的整個工作日讓您的伺服器停止服務,我想您會發現您的 SLA 實際上比這要求更高…

引用自:https://serverfault.com/questions/516