Centos

為什麼 Red Hat Cluster Suite 停止工作?

  • April 9, 2015

我一直在 CentOS 6.4 上測試集群套件,並且執行良好,但我今天注意到 [ 8 月 8 日,當這個問題最初被問到時],它不喜歡以前工作的配置。我嘗試使用 CCS 從頭開始重新創建配置,但這會導致驗證錯誤。


8月21日編輯:

我現在已經從 CentOS 6.4 x86_64 最小安裝中完全重新安裝了該盒子,添加了以下軟體包及其依賴項:

yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget

yum install rgmanager ccs

以下命令都有效:

ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3

並導致以下配置:

<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
   <fence_daemon/>
   <clusternodes>
       <clusternode name="ha-01" nodeid="1"/>
       <clusternode name="ha-02" nodeid="2"/>
   </clusternodes>
   <cman/>
   <fencedevices/>
   <rm>
       <failoverdomains/>
       <resources>
           <ip address="10.1.1.3" monitor_link="1"/>
           <ip address="10.1.1.4" monitor_link="1"/>
           <ip address="10.110.0.3" monitor_link="1"/>
           <ip address="10.110.8.3" monitor_link="1"/>
       </resources>
       <service autostart="1" name="routing-a" recovery="restart">
           <ip ref="10.1.1.3"/>
           <ip ref="10.110.0.3"/>
       </service>
       <service autostart="1" name="routing-b" recovery="restart">
           <ip ref="10.1.1.4"/>
           <ip ref="10.110.8.3"/>
       </service>
   </rm>
</cluster>

但是,如果我使用ccs_config_validate或嘗試啟動該cman服務,它會失敗並顯示:

Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate

這是怎麼回事?這曾經奏效!

yum update在更多的舞蹈之後,它才剛剛開始工作。我比較了新舊/var/lib/cluster/cluster.rng,驚喜,驚喜,有區別。系統上不起作用的那個是缺少<ip>元素的任何定義。

目前系統的化身是從同一張最小CD安裝的,我有一個逐步的命令來剪切和粘貼,在我開發它的時候工作了好幾次,然後失敗了近兩個月,現在開始了再次工作。我已經建造了大約六次盒子,所以我想這不是程序。

也許是 Red Hat 的失誤,但我不確定如何找出在過去兩個月內該文件中籤入了哪些更改。

我認為您缺少故障轉移域,如果您想在 redhat 集群上定義一個服務,首先您需要定義一個故障轉移域,您可以將故障轉移域用於許多服務或每個服務一個。

如果您需要有關故障轉移域“man clurgmgrd”的更多資訊

故障轉移域是服務可能綁定到的成員的有序子集。以下

是管理選項的語義列表,這些選項關於不同的配置選項如何影響故障轉移域的行為:

引用自:https://serverfault.com/questions/529550