我怎麼知道為什麼我的專用伺服器當機或崩潰?(類 Unix)
最近,我的專用伺服器在周日凍結了大約 50 分鐘。它沒有響應 ping 或任何命令。最後,託管公司很難重新啟動它,此後一切正常。
我已經在日誌中探勘了兩天,但除了我的日誌在 10:55 到 11:40 之間停止之外,我沒有發現任何不尋常的地方。
所以,也許我沒有找對地方,或者我沒有記錄一些關鍵資訊。
這讓我想到了我的問題,**我怎麼知道我的專用伺服器為什麼凍結或崩潰?**我應該記錄什麼,我在哪裡看,我應該執行一些測試嗎?
我的伺服器正在執行 Debian (Jessie) 8.3,但我省略了此資訊,因為我更喜歡對任何類 Unix 作業系統有用的“通用”答案。
此外,這個問題可能有點過於寬泛,我知道,如果是,我深表歉意。
伺服器停止響應並且在重置後在其日誌中沒有適當解釋原因的情況很常見。調查此問題的標準方法是對此伺服器進行某種帶外控制,通常這將是某種ipkvm,通常由 IPMI/BMC 板提供。惠普稱其為ILO,戴爾稱其為DRAC,IBM 稱其為RSA,其他供應商簡稱為IPMI。它通常由一個單獨的控制器處理,該控制器可以有一個專用的網路埠(它也可以在共享模式下訪問,通過相同的網路介面連接作業系統,但最好有一個專用的)。另一種選擇是附加一個外部 ipkvm,它將為您提供相同的帶外連接方式。
因此,當伺服器停止響應時,您可以使用這種通信方式,登錄伺服器並嘗試了解問題所在。如果伺服器仍然沒有響應,即使通過本地控制台遠端訪問,也可以嘗試其他一些更複雜的技術。第一種是使用 NMI(非屏蔽中斷呼叫,通常可以從 IPMI/BMC 發出)進入核心調試器,甚至強制執行致命陷阱並在重新啟動後檢查轉儲的核心核心。後一種技術實際上是特定於作業系統的,僅在懷疑遇到核心錯誤時使用。由於您使用的是 Linux,我懷疑您是否會需要它,但值得一提。