Centos
為什麼 Red Hat Cluster Suite 停止工作?
我一直在 CentOS 6.4 上測試集群套件,並且執行良好,但我今天注意到 [ 8 月 8 日,當這個問題最初被問到時],它不喜歡以前工作的配置。我嘗試使用 CCS 從頭開始重新創建配置,但這會導致驗證錯誤。
8月21日編輯:
我現在已經從 CentOS 6.4 x86_64 最小安裝中完全重新安裝了該盒子,添加了以下軟體包及其依賴項:
yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget
和
yum install rgmanager ccs
以下命令都有效:
ccs -h ha-01 --createcluster test-ha ccs -h ha-01 --addnode ha-01 ccs -h ha-01 --addnode ha-02 ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1 ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1 ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1 ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1 ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3 ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3 ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4 ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3
並導致以下配置:
<?xml version="1.0"?> <cluster config_version="13" name="test-ha"> <fence_daemon/> <clusternodes> <clusternode name="ha-01" nodeid="1"/> <clusternode name="ha-02" nodeid="2"/> </clusternodes> <cman/> <fencedevices/> <rm> <failoverdomains/> <resources> <ip address="10.1.1.3" monitor_link="1"/> <ip address="10.1.1.4" monitor_link="1"/> <ip address="10.110.0.3" monitor_link="1"/> <ip address="10.110.8.3" monitor_link="1"/> </resources> <service autostart="1" name="routing-a" recovery="restart"> <ip ref="10.1.1.3"/> <ip ref="10.110.0.3"/> </service> <service autostart="1" name="routing-b" recovery="restart"> <ip ref="10.1.1.4"/> <ip ref="10.110.8.3"/> </service> </rm> </cluster>
但是,如果我使用
ccs_config_validate
或嘗試啟動該cman
服務,它會失敗並顯示:Relax-NG validity error : Extra element rm in interleave tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content Configuration fails to validate
這是怎麼回事?這曾經奏效!
yum update
在更多的舞蹈之後,它才剛剛開始工作。我比較了新舊/var/lib/cluster/cluster.rng
,驚喜,驚喜,有區別。系統上不起作用的那個是缺少<ip>
元素的任何定義。目前系統的化身是從同一張最小CD安裝的,我有一個逐步的命令來剪切和粘貼,在我開發它的時候工作了好幾次,然後失敗了近兩個月,現在開始了再次工作。我已經建造了大約六次盒子,所以我想這不是程序。
也許是 Red Hat 的失誤,但我不確定如何找出在過去兩個月內該文件中籤入了哪些更改。
我認為您缺少故障轉移域,如果您想在 redhat 集群上定義一個服務,首先您需要定義一個故障轉移域,您可以將故障轉移域用於許多服務或每個服務一個。
如果您需要有關故障轉移域“man clurgmgrd”的更多資訊
故障轉移域是服務可能綁定到的成員的有序子集。以下
是管理選項的語義列表,這些選項關於不同的配置選項如何影響故障轉移域的行為: