Web-Server
在 solaris 中,如何監視和自動響應關鍵事件
我有一個隨機失敗的網站。在joyent上的open solaris中執行。
我有一個監控服務,可以在站點關閉時提醒我,但是,我想要一種方法來放置一個“內部”工具,告訴我為什麼會發生這種情況。
是因為cpu太高了嗎?不是記憶?哪個程序失敗?有可能追溯嗎?
一切都在 Solaris 服務管理工具上執行。網路伺服器是cherokee,數據庫是mysql,語言是python/django。
我想要最簡單的設置來監控 & 自動響應,即:在失敗的情況下重新啟動網路伺服器或 django 程序。
我更喜歡低成本的工具。我不需要某些工具所具有的花哨的監控,沒有 ned 圖表或 sms 警報。只知道什麼失敗,如果可能的話重新啟動它(可能最多 n 次),並在我檢查它的時候在某個地方有一個日誌。
您還可以選擇使用 Nodefly、NewRelic、Pagerduty、Pingdom 或任何 nagios、Munin 或 zabbix 來實現額外的監控。
你有很多選擇。
/var/svc/log 中的日誌可以滿足您的所有需求。
這些是 SMF 在幕後對您的系統所做的一切的日誌。
提取“有趣”的數據留給讀者作為練習。