在 solaris 中，如何監視和自動響應關鍵事件

March 14, 2012

我有一個隨機失敗的網站。在joyent上的open solaris中執行。
我有一個監控服務，可以在站點關閉時提醒我，但是，我想要一種方法來放置一個“內部”工具，告訴我為什麼會發生這種情況。
是因為cpu太高了嗎？不是記憶？哪個程序失敗？有可能追溯嗎？
一切都在 Solaris 服務管理工具上執行。網路伺服器是cherokee，數據庫是mysql，語言是python/django。
我想要最簡單的設置來監控 & 自動響應，即：在失敗的情況下重新啟動網路伺服器或 django 程序。
我更喜歡低成本的工具。我不需要某些工具所具有的花哨的監控，沒有 ned 圖表或 sms 警報。只知道什麼失敗，如果可能的話重新啟動它（可能最多 n 次），並在我檢查它的時候在某個地方有一個日誌。

您還可以選擇使用 Nodefly、NewRelic、Pagerduty、Pingdom 或任何 nagios、Munin 或 zabbix 來實現額外的監控。
你有很多選擇。

/var/svc/log 中的日誌可以滿足您的所有需求。
這些是 SMF 在幕後對您的系統所做的一切的日誌。
提取“有趣”的數據留給讀者作為練習。

引用自：https://serverfault.com/questions/220485

相關問答

我可以自定義 netdata 以不提醒我有關 303 重定向的資訊嗎？

August 30, 2018

在 Web 和數據庫伺服器上監控什麼（關鍵指標）

February 14, 2015

用於查看日誌的簡單網路工具

September 16, 2014

伺服器性能監控

November 14, 2013

監控電子郵件伺服器的網路軟體？

December 6, 2011

正在尋找伺服器監控應用程序……沒什麼特別的……適用於 Windows

July 13, 2011