Openstack

Openstack Neutron 穩定性問題

  • March 18, 2015

我有一個相當簡單的用於 PoC 的 Openstack 設置。2 個節點,都執行 Nova,以及節點 1 上的所有其他節點。它執行 CentOS 6,並使用 RDO 設置。重要的是,我將 Neutron 用於網路,並從RDO 文件為現有網路設置了 GRE 租戶網路

定期(我認為每隔幾天)我會失去與 Openvswitch(以及我的實例)的所有通信。我知道 OVS,因為我可以通過 SSH 連接到節點 2,然後通過他們的專用網路連接到節點 1。我在日誌中看到的最能說明問題的是:

unix:/var/run/openvswitch/db.sock: database connection failed (Protocol error)

此外,OVS 正在使用大量 CPU(在我的 16 核機器上使用了 800%),當我嘗試徹底關閉時,它永遠不會發生,因為它無法殺死 ovsdb-server。

我做了一些Google搜尋,發現了一些基於舊 Openstack 版本的舊建議,其中人們存在 OVS/核心版本不匹配的問題。當我從 RDO 執行版本時,我認為我可以打折扣(除非 Red Hat 搞砸了)。

還有人看到這個嗎?有什麼建議嗎?

PS:不要告訴我重新編譯Openvswitch,由於各種原因,近期不會發生。

您使用的是哪個版本的 OpenStack,哪個版本的 RDO 儲存庫?我只是在猜測這麼少的細節,但看起來你指出 OpenvSwitch 和你的核心存在某種問題,一個失控的 OVS 程序。可能與數據庫或消息代理相關。

檢查您的 qpid 日誌:/var/log/messages 是否顯示在您的實例通信失去時斷開連接的原因。這可以揭示為什麼可能會出現消息斷開連接以及是否由消息連接失敗(外部/第三原因)引起;或相反,由 OVS 斷開連接(可能是 OVS/核心建構問題)引起。

由於 RDO 是“…在 RHEL 6.4 上測試”,我將使用 CentOS 6.4 最低,而不是您所說的 6。更好地使用 6.5,因為核心中包含許多組件,而不是根據 RDO 的要求進行修補。

如果沒有日誌和配置詳細資訊,代表您進行其他故障排除是很困難的,但是在您對此進行評估之後,可以說有已知的 Neutron 配置挑戰需要通過 GRE 和 MTU 設置來克服。

在任何情況下,要成功建構 OpenStack(無論多麼基礎,它都很複雜),您需要從受支持且最新的 OS、核心和 OVS 建構開始。您如何確定可以折扣“OVS/核心版本不匹配”,您使用的是哪些版本?

我建議您使用最新的 CentOS 6.5 和 RDO 進行配置,然後如果問題仍然存在(更新詳細資訊、日誌文件等),請另外在 RDO 論壇上重新發布:http: //openstack.redhat.com/forum/,然後您將獲取您可能需要的發行版特定詳細資訊。

編輯:通過這些文章檢查 dhcp.ini 和 dnsmask 配置以了解 MTU 設置,顯然 1454 在執行 GRE 時應該適合來賓實例:http: //bderzhavets.blogspot.com.au/2014/01/setting-up-two -physical-node-openstack.html https://ask.openstack.org/en/question/12499/forcing-mtu-to-1400-via-etcneutrondnsmasq-neutronconf-per-daniels/

不要忘記 MTU 和 GRE 可能仍然存在問題,具體取決於您的核心和 OVS 版本,因此請告知您擁有的版本並更新您的文章,以便您也可以幫助其他有類似問題的人,在兩個節點上顯示結果為了:

unname -a

轉-qpi | grep 打開vswitch

當您進行大型 20G 傳輸時,還請查看您的 OVS GRE 流程並在相關的 qrouter 命名空間中執行一些 tcpdump,RDO 的本指南將有所幫助,請查看 Joe Talerico 在 60 分鐘時對兩個節點進行的出色 GRE 調試說明以後: http ://www.youtube.com/watch?v=wEa_8ESxPAY&feature=share&t=1h20s

最後,您還需要根據文章 #24 檢查您是否受到通用接收解除安裝配置的影響:https ://bugs.launchpad.net/neutron/+bug/1252900

引用自:https://serverfault.com/questions/584863