Centos

Glusterd 已死,但集群仍在執行

  • August 26, 2016

我們目前在 Gluster 3.6.4 上執行一個三節點集群。

在我們的一個節點上,我們注意到 glusterd 守護程序已死。

但是 glusterfsd 守護程序仍在執行,我們相信客戶端正在連接和檢索數據

我們注意到守護程序已經死了一個星期,而我們沒有看到它。NFS 分佈式掛載繼續正常工作

我們想知道我們是否可以安全地繼續並再次啟動 glusterd 服務?

如果是這樣,這會觸發所有捲的自我修復嗎?因為這會導致性能問題。

該節點的日誌如下:

[2016-08-19 18:01:52.804453] E [rpc-clnt.c:362:saved_frames_unwind] (--> /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x1e0)[0x7f4f3ffca550] (--> /usr/lib64/libgfrpc.so.0(saved_frames_unwind+0x1e7)[0x7f4f3fd9f787] (--> /usr/lib64/libgfrpc.so.0(saved_frames_destroy+0xe)[0x7f4f3fd9f89e] (--> /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup+0x91)[0x7f4f3fd9f951] (--> /usr/lib64/libgfrpc.so.0(rpc_clnt_notify+0x15f)[0x7f4f3fd9ff1f] ))))) 0-DAOS-client-4: forced unwinding frame type(GF-DUMP) op(DUMP(1)) called at 2016-08-19 18:01:51.886737 (xid=0x144a1d)
[2016-08-19 18:01:52.804480] W [client-handshake.c:1588:client_dump_version_cbk] 0-DAOS-client-4: received RPC status error
[2016-08-19 18:01:52.804504] W [socket.c:620:__socket_rwv] 0-glusterfs: readv on 127.0.0.1:24007 failed (No data available)
[2016-08-19 18:02:02.900863] E [socket.c:2276:socket_connect_finish] 0-glusterfs: connection to 127.0.0.1:24007 failed (Connection refused)

如果我們這樣做不安全,我們還應該做些什麼來解決這個問題

(有用資訊:這篇博文討論了 glusterfsd 和 glusterd http://blog.nixpanic.net/2013/12/gluster-and-not-restarting-brick.html之間的區別)

是的,如果沒有必要數量的節點對該問題進行投票,您的捲就無法自我修復。是的,當您啟動 glusterd.service 時,它應該重新啟動自我修復過程。但是,它只會修復已標記為需要修復的文件。

由於您沒有註意到缺少 glusterd 守護程序,因此我假設您不會在此集群上大量修改磚塊/卷。但是,glusterfsd 守護程序都在執行,這意味著大部分情況下不需要自我修復。

要考慮的最重要的事情是,自我修復不像巡邏讀取,更像是選擇性擦洗——因為它只適用於被標記為臟的文件。考慮到這一點,啟動 glusterd 守護程序並不是什麼大問題。

引用自:https://serverfault.com/questions/799270