Networking

評估雷擊後的設備損壞 - 我應該計劃更多嗎?

  • June 27, 2017

我的一個客戶的網站上週收到了直接雷擊(巧合的是 13 號星期五!)。

我遠離現場,但與現場某人一起工作,我發現了一種奇怪的損壞模式。兩個網際網路連結都斷開了,大多數伺服器都無法訪問。大部分損壞發生在MDF中,但一個連接光纖的IDF也失去了交換機堆疊成員上 90% 的埠。有足夠的備用交換機埠可用於在其他地方重新分配電纜並重新程式,但是在我們追查受影響的設備時出現了停機時間。

這是一個新的建築/倉儲設施,伺服器機房的設計進行了很多規劃。主伺服器機房使用APC SmartUPS RT 8000VA雙轉換線上 UPS,並由發電機提供支持。所有連接的設備都有適當的配電。異地數據複製和系統備份已經到位。

總之,損害(我知道)是:

  • Cisco 4507R-E 機箱交換機上的 48 埠線卡出現故障。
  • 4 成員堆疊中的 Cisco 2960 交換機發生故障。(哎呀…鬆散的堆疊電纜)
  • Cisco 2960 交換機上有幾個不穩定的埠。
  • HP ProLiant DL360 G7 主機板和電源。
  • Elfiq WAN 鏈路平衡器。
  • 一台 Multitech 傳真調製解調器。
  • WiMax/固定無線網際網路天線和電源注入器。
  • 眾多 PoE 連接設備(VoIP 電話、Cisco Aironet 接入點、IP 安全攝像頭)

大多數問題與失去 Cisco 4507R-E 中的整個交換機刀片有關。這包含一些 VMware NFS 網路和到站點防火牆的上行鏈路。VMWare 主機出現故障,但一旦儲存網路連接恢復,HA 就會負責處理 VM。**我被迫重新啟動/重新啟動許多設備以清除時髦的電源狀態。**所以恢復的時間很短,但我很好奇應該吸取什麼教訓……

  • 未來應該實施哪些額外的保護措施來保護設備?
  • 我應該如何處理保修和更換?思科和惠普正在更換契約項下的項目。昂貴的 Elfiq WAN 鏈路平衡器在他們的網站上有一個宣傳語,基本上是說“太糟糕了,使用網路電湧保護器”。(似乎他們期望這種類型的失敗)
  • 我在 IT 部門工作的時間足夠長,過去曾遭受過雷電風暴的破壞,但影響非常有限;例如,廉價 PC 的網路介面或微型交換機的破壞。
  • 我還能做些什麼來檢測潛在的易碎設備,還是我只需要等待奇怪的行為浮出水面?
  • 這只是運氣不好,還是應該在災難恢復中真正考慮到?

有了足夠的 $$$,就可以在環境中建構各種冗餘,但是在這裡預防性/周到的設計和有效利用資源之間的合理平衡是什麼?

幾份工作前,我工作的地方的一個數據中心位於一個非常大的天線下方的一層。這個又大又薄的金屬物品是該地區最高的東西,每 18 個月左右就會被閃電擊中一次。數據中心本身是在 1980 年左右建造的,所以我不會稱其為最現代的東西,但他們在處理雷擊損壞方面有著長期的經驗(串列通信板每次都必須更換,如果通信板位於一個 10 年內沒有製造任何新零件的系統中)。

老手提出的一件事是,所有這些雜散電流都可以繞過任何東西,並且一旦橋入,就可以在共同的地面上傳播。並且可以從氣隙中橋入。閃電是一個例外情況,正常的安全標準不足以防止電弧,只要它有能量就可以。它有很多。如果有足夠的能量,它可以從吊頂網格(也許其中一根懸索懸掛在與水泥中的建築大樑連接的環上)到 2 柱架的頂部並從那裡進入網路好東西。

像黑客一樣,你能做的只有這麼多。您的電源上都有斷路器,可以箝制雜散電壓,但您的低壓網路設備幾乎從不這樣做,並且代表了一個用於路由極有能量的電流的公共路徑。


檢測潛在的片狀試劑盒是我在理論上知道如何做的事情,但實際上並不知道。可能您最好的選擇是將可疑設備放入一個區域,並故意將房間內的溫度提高到工作範圍的高端,然後看看會發生什麼。執行一些測試,載入它。把它放在那裡幾天。任何預先存在的電氣損壞所增加的熱應力可能會淘汰一些定時炸彈。

它確實確實縮短了您某些設備的使用壽命,但要找出哪些設備很難。電源內部的電源調節電路可能存在損壞的組件並向伺服器提供臟電源,您只能通過使用專門用於測試電源的設備來檢測到這種情況。


除了在屋頂上有巨大避雷針的設施中安裝直流電之外,我沒有考慮過雷擊。一般來說,罷工是一種很少發生的事情,它在“上帝的行為”下被洗牌並繼續前進。

但是……你現在有一個。它表明您的設施至少有過一次合適的條件。是時候評估您的設施在適當條件下的傾向性並做出相應的計劃了。如果你現在只考慮閃電的 DR 影響,我認為這是合適的。

引用自:https://serverfault.com/questions/408130