Glusterd 已死，但集群仍在執行

August 26, 2016

我們目前在 Gluster 3.6.4 上執行一個三節點集群。
在我們的一個節點上，我們注意到 glusterd 守護程序已死。
但是 glusterfsd 守護程序仍在執行，我們相信客戶端正在連接和檢索數據
我們注意到守護程序已經死了一個星期，而我們沒有看到它。NFS 分佈式掛載繼續正常工作
我們想知道我們是否可以安全地繼續並再次啟動 glusterd 服務？
如果是這樣，這會觸發所有捲的自我修復嗎？因為這會導致性能問題。
該節點的日誌如下：
[2016-08-19 18:01:52.804453] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x1e0)[0x7f4f3ffca550] (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind+0x1e7)[0x7f4f3fd9f787] (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy+0xe)[0x7f4f3fd9f89e] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup+0x91)[0x7f4f3fd9f951] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify+0x15f)[0x7f4f3fd9ff1f] ))))) 0-DAOS-client-4: forced unwinding frame type(GF-DUMP) op(DUMP(1)) called at 2016-08-19 18:01:51.886737 (xid=0x144a1d)
[2016-08-19 18:01:52.804480] W [client-handshake.c:1588:client_dump_version_cbk] 0-DAOS-client-4: received RPC status error
[2016-08-19 18:01:52.804504] W [socket.c:620:__socket_rwv] 0-glusterfs: readv on 127.0.0.1:24007 failed (No data available)
[2016-08-19 18:02:02.900863] E [socket.c:2276:socket_connect_finish] 0-glusterfs: connection to 127.0.0.1:24007 failed (Connection refused)
如果我們這樣做不安全，我們還應該做些什麼來解決這個問題
（有用資訊：這篇博文討論了 glusterfsd 和 glusterd http://blog.nixpanic.net/2013/12/gluster-and-not-restarting-brick.html之間的區別）

是的，如果沒有必要數量的節點對該問題進行投票，您的捲就無法自我修復。是的，當您啟動 glusterd.service 時，它應該重新啟動自我修復過程。但是，它只會修復已標記為需要修復的文件。
由於您沒有註意到缺少 glusterd 守護程序，因此我假設您不會在此集群上大量修改磚塊/卷。但是，glusterfsd 守護程序都在執行，這意味著大部分情況下不需要自我修復。
要考慮的最重要的事情是，自我修復不像巡邏讀取，更像是選擇性擦洗——因為它只適用於被標記為臟的文件。考慮到這一點，啟動 glusterd 守護程序並不是什麼大問題。

引用自：https://serverfault.com/questions/799270

Glusterd 已死，但集群仍在執行

相關問答

K3S arm64 分佈式文件系統

具有本地磁碟記憶體的分佈式文件系統

使用 systemd 重試所有失敗的掛載

GlusterFS 替代文件上傳網站

如何讓 GlusterFS 掛載點高可用？

GlusterFS 伺服器邏輯