Power-Distribution-Unit

PDU 管理界面可用性低 - 產品缺陷或孤立問題

  • September 11, 2012

我們的託管服務提供商為我們提供了 APC AP7932交換式 0U PDU,作為他們提供給我們的幾個機櫃的一部分。我們在這些 PDU 的網路管理方面遇到了很多麻煩,我將在下面進行描述。我們將搬到同一個數據中心的籠子空間,並將為籠子購買我們自己的 PDU。我想從遠端管理的角度確定哪些企業級 PDU 性能可靠,這樣我們就不會最終購買在紙上看起來不錯但使用起來卻是一場噩夢的東西。

我們的 colo 提供的 PDU 配置為支持通過 SSL Web UI 和遠端登錄進行管理。截至 2011 年 11 月,我們將所有這些韌體更新為目前版本。他們可靠地響應 ping,我們沒有理由懷疑網路層問題。但是,我們在所有 PDU 中都遇到了來自嵌入式管理主機的頻繁掛起、超時、斷開連接和普遍不可用的情況。我們有時必須重新啟動 PDU 上的微控制器才能從看似偶然的硬故障中恢復。插座保持通電(謝天謝地),但管理方面是如此不可靠,以至於它已成為操作的責任 - 如果需要,我們不能確信我們可以進入 PDU 以重新啟動主機。我們有 3 個 PDU,它們都表現出相同的行為。

企業級 0U 交換式 PDU 的製造商有很多,它們都具有類似的功能。如果我查看我們目前 PDU 的數據表,它們似乎很合適——只有在使用它們的痛苦中,我們才知道要避免它們。我想避免選擇在紙上看起來不錯但有類似可靠性問題的 PDU。

其他人對交換式 PDU 的體驗如何?這種程度的片狀正常嗎?

你描述的不正常,有點。但是,您如何確定可用性?您是否有不斷 ping/探測設備的監控解決方案?

過去,我將OpenNMS設置為從我的 APC UPS 和 PDU 設備收集數據。一些檢查,特別是 http、ftp 和 telnet 探測,導致管理界面超時,造成 30-60 秒的中斷。也許這就是你所看到的。

但是,我從來沒有遇到過 SNMP 收集問題。所以如果是這種情況,盡量減少對管理界面的命中,只專注於收集你需要的東西。

APC 介面上我的 OpenNMS 可用性圖表的摘錄 在此處輸入圖像描述

引用自:https://serverfault.com/questions/422169