Monitoring

Snmpd 停止工作而沒有任何更改

  • April 19, 2021

我正在使用 snmp 監控多個伺服器/路由器。一切正常,但今天我看到 3 伺服器不再通過 SNMP 響應。3 個 snmp 守護程序在同一時刻(星期六早上 6 點)停止,最後一個日誌(Cannot statfs : /var/docker/lib …..)

我試圖重新啟動 snmp 守護程序,但 systemctl 遇到超時並且無法重新啟動它們。配置沒有任何變化。

有人有想法嗎?

謝謝

“Cannot statfs”可能來自 snmpd 中的磁碟使用監視器,它迭代已掛載的文件系統並詢問剩餘的可用空間量。

如果statfs(2)呼叫失敗,這是機器上的一個嚴重問題,這是系統呼叫之一,它基本上只是在共享結構中查找資訊並返回它,唯一可能失敗的方法是同步訪問該結構結構體。

所以,有些東西掛在那裡,它持有對核心中某些結構的獨占訪問權,這也是阻止文件系統訪問的原因,這會導致重啟超時。

如果這是一個本地文件系統,我會重新啟動並在啟動期間強制檢查文件系統。在 systemd 之前,這樣做的機制是shutdown -Fr now,但systemd 要求您設置核心命令行參數

如果這是在 SAN 或類似設備上,我會先找出 SAN 出了什麼問題,然後進行文件系統檢查。

三台主機同時出現,真的只能用“這個文件系統在一個失敗的SAN上”來解釋。

引用自:https://serverfault.com/questions/1060803