為什麼 Red Hat Cluster Suite 停止工作？

April 9, 2015

我一直在 CentOS 6.4 上測試集群套件，並且執行良好，但我今天注意到 [ 8 月 8 日，當這個問題最初被問到時]，它不喜歡以前工作的配置。我嘗試使用 CCS 從頭開始重新創建配置，但這會導致驗證錯誤。

8月21日編輯：

我現在已經從 CentOS 6.4 x86_64 最小安裝中完全重新安裝了該盒子，添加了以下軟體包及其依賴項：

yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget

和

yum install rgmanager ccs

以下命令都有效：

ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3

並導致以下配置：

&lt;?xml version="1.0"?&gt;
&lt;cluster config_version="13" name="test-ha"&gt;
   &lt;fence_daemon/&gt;
   &lt;clusternodes&gt;
       &lt;clusternode name="ha-01" nodeid="1"/&gt;
       &lt;clusternode name="ha-02" nodeid="2"/&gt;
   &lt;/clusternodes&gt;
   &lt;cman/&gt;
   &lt;fencedevices/&gt;
   &lt;rm&gt;
       &lt;failoverdomains/&gt;
       &lt;resources&gt;
           &lt;ip address="10.1.1.3" monitor_link="1"/&gt;
           &lt;ip address="10.1.1.4" monitor_link="1"/&gt;
           &lt;ip address="10.110.0.3" monitor_link="1"/&gt;
           &lt;ip address="10.110.8.3" monitor_link="1"/&gt;
       &lt;/resources&gt;
       &lt;service autostart="1" name="routing-a" recovery="restart"&gt;
           &lt;ip ref="10.1.1.3"/&gt;
           &lt;ip ref="10.110.0.3"/&gt;
       &lt;/service&gt;
       &lt;service autostart="1" name="routing-b" recovery="restart"&gt;
           &lt;ip ref="10.1.1.4"/&gt;
           &lt;ip ref="10.110.8.3"/&gt;
       &lt;/service&gt;
   &lt;/rm&gt;
&lt;/cluster&gt;

但是，如果我使用ccs_config_validate或嘗試啟動該cman服務，它會失敗並顯示：

Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate

這是怎麼回事？這曾經奏效！

yum update在更多的舞蹈之後，它才剛剛開始工作。我比較了新舊/var/lib/cluster/cluster.rng，驚喜，驚喜，有區別。系統上不起作用的那個是缺少<ip>元素的任何定義。
目前系統的化身是從同一張最小CD安裝的，我有一個逐步的命令來剪切和粘貼，在我開發它的時候工作了好幾次，然後失敗了近兩個月，現在開始了再次工作。我已經建造了大約六次盒子，所以我想這不是程序。
也許是 Red Hat 的失誤，但我不確定如何找出在過去兩個月內該文件中籤入了哪些更改。

我認為您缺少故障轉移域，如果您想在 redhat 集群上定義一個服務，首先您需要定義一個故障轉移域，您可以將故障轉移域用於許多服務或每個服務一個。
如果您需要有關故障轉移域“man clurgmgrd”的更多資訊
故障轉移域是服務可能綁定到的成員的有序子集。以下
是管理選項的語義列表，這些選項關於不同的配置選項如何影響故障轉移域的行為：

引用自：https://serverfault.com/questions/529550

為什麼 Red Hat Cluster Suite 停止工作？

相關問答

RedHat 6 集群故障轉移

如何在降級模式下執行 CentOS (Red Hat) 集群？

在 CentOS / Redhat 上使用 Tomcat 的應用程序集群

Red Hat Clustering Fencing 失敗

如何為主動/主動場景設置起搏器集群及其工作原理？

VMWare Workstation-10.01 上 RedHAt 集群中的永久磁碟名稱