Redhat

GFS 崩潰,無法啟動 lock_gulmd,說 state=Expired

  • August 6, 2009

Someting 壞了,我失去了與第一台伺服器上的儲存的連接。第二台伺服器可以訪問該 FS。我嘗試通過 service lock_gulmd、gfs、pool、ccsd stop/start(以各種順序)重新啟動 GFS,但沒有運氣。在主伺服器(第三個)“ gulm_tool nodelist localhost

“說

Name: srv1
 state = Expired
 mode = Slave
 missed beats = 0
 last beat = 0
 delay avg = 0
 max delay = 0

我發現它需要圍欄?自動還是手動?任何人都可以幫忙嗎?目前,沒有任何主機正在向 FS 寫入任何內容,所以我想不會造成任何傷害。第二台主機此時也已過期,無法啟動lock_gulmd。

如果它還沒有被自動圍欄,我會假設你的圍欄機制並不完全正常工作。

我想可以做的是重新啟動過期的主機(一個接一個,或者同時兩個)並使用fence_ack_manual 工具通知集群防護已成功。這不是在你的日誌中顯示嗎?

執行此工具(在請求執行它的節點上,而不是需要重新啟動的節點上)將允許 GFS 文件系統和故障節點恢復。恢復主要包括節點再次成為適當的集群成員以及在必要時重播 GFS 文件系統日誌,iirc。

引用自:https://serverfault.com/questions/50817