Hardware

伺服器機房裡有東西在燃燒;我怎樣才能快速辨識它是什麼?

  • January 25, 2017

前幾天,我們注意到伺服器機房散發出一股難聞的燃燒氣味。長話短說,它最終成為 UPS 單元中燃燒的電池模組之一,但我們花了好幾個小時才弄明白。我們能夠弄清楚的主要原因是UPS顯示屏最終顯示需要更換模組。

這就是問題所在:整個房間都充滿了氣味。進行嗅探測試非常困難,因為氣味已經滲透到所有東西(更不用說它讓我們頭暈目眩)。我們幾乎錯誤地關閉了我們的生產數據庫伺服器,因為它是氣味最強烈的地方。生命體徵似乎沒問題(CPU 溫度顯示 60 攝氏度,風扇速度正常),但我們不確定。碰巧燒毀的電池模組與機架上的伺服器高度相同,並且只有 3 英尺遠。如果這是一個真正的緊急情況,我們將慘遭失敗。

實際上,實際伺服器硬體燒毀的可能性是相當罕見的,而且大多數時候我們都會將 UPS 視為罪魁禍首。但是有幾個機架和幾件設備,它很快就會變成一個猜謎遊戲。**如何快速準確地確定實際燃燒的設備是什麼?**我意識到這個問題高度依賴於環境變數,例如房間大小、通風、位置等,但任何輸入都會受到讚賞。

普遍的共識似乎是您的問題的答案分為兩部分:

我們如何找到有趣的燃燒氣味的來源?

你已經很好地確定了“如何”:

  • “嗅覺測試”
  • 尋找可見的煙霧/霾
  • 使用熱 (IR) 攝像頭在房間內走動,尋找熱點
  • 檢查監控和設備面板是否有警報

您可以通過多種方式提高快速發現問題的機會 - 改進監控通常是最容易的。一些問題要問:

  • 您是否從您的設備收到溫度和其他健康警報?
  • 您的 UPS 系統是否向監控系統報告故障?
  • 您是否從配電設備中獲得電流消耗警報?
  • 房間煙霧探測器是否向監控系統報告?(他們可以嗎?

我們什麼時候應該排除故障而不是點擊大紅色開關?

這是一個更有趣的問題。

按下大紅色開關可能會在匆忙中花費您的公司一大筆錢:清潔劑釋放可能會達到數万美元,以及緊急斷電後的中斷/恢復成本(EPO,“掉房” ) 可能是毀滅性的。

您不想因為電源中的電容器爆裂並讓房間發出異味而丟棄數據中心。

相反,伺服器機房發生火災可能會導致貴公司的數據/設備損失,更重要的是會導致員工喪生。

排除“那種奇怪的燃燒氣味”的故障絕不應該優先於安全,因此有一些關於排除“火災前”情況的明確規則非常重要。

以下指南是我在沒有(或除此之外)任何其他明確定義的程序/規則的情況下應用的個人限制- 它們對我很有幫助,它們可能會幫助你,但它們也可能很容易讓我被殺或明天被解僱,所以使用它們需要您自擔風險。

  1. 如果您看到煙霧或火災,請放下房間

這應該不用說,但無論如何都要說出來:如果發生火災(或煙霧表明很快就會發生),您撤離房間,切斷電源,然後將火撲滅抑制系統。

可能存在例外(行使一些常識),但這幾乎總是正確的操作。 2. 如果您要進行故障排除,請始終至少讓其他人參與

其中,原因有二。首先,您不想在數據中心里四處閒逛,突然間在您走下的那一排架子上架起,沒人知道您在那兒。其次,另一個人是您對故障排除與放棄房間的理智檢查,如果您撥打大紅色開關的電話,您將有第二個人同意該決定的好處(有助於避免職業限制方面如果以後有人提出質疑,會做出這樣的決定)。 3. 在進行故障排除時採取謹慎的安全措施

確保您始終有一條逃生路徑(一排的開放端和通往出口的暢通路徑)。

讓某人駐紮在 EPO / 滅火釋放處。

隨身攜帶滅火器(請使用哈龍或其他清潔劑)。

記住上面的規則#1。

如有疑問,請離開房間。注意呼吸:使用呼吸器或氧氣面罩。如果發生化學火災,這可能會挽救您的健康。 4. 設置一個限制並堅持下去

更準確地說,設置兩個限制:

  • 條件(“我會讓這變得更糟嗎?”),和
  • 時間(“在問題太冒險之前,我將繼續嘗試找到問題多長時間?”)。您設置的限制也可用於讓您的團隊開始有序關閉受影響區域,因此當您拉動電源時,您不會導致一堆活動機器崩潰,並且您的恢復時間會更短,但請記住如果有序關機花費的時間太長,您可能不得不以安全的名義讓一些系統崩潰。
  1. 相信你的直覺

如果您隨時擔心安全問題,請取消故障排除並清理房間。

您可能會也可能不會根據直覺放棄房間,但在(相對)安全的情況下在房間外重新組合是謹慎的。

如果沒有迫在眉睫的危險,您可以選擇在採取任何激烈行動(如 EPO 或清潔劑釋放)之前先請當地消防部門。(無論如何,他們可能會告訴你這樣做:他們的任務是保護人員,然後是財產,但他們顯然是處理火災的專家,所​​以你應該按照他們說的去做!)

我們已經在評論中解決了這個問題,但它也可以在答案中得到總結——@DeerHunter、@Chris、@Sirex 和許多其他人為討論做出了貢獻

引用自:https://serverfault.com/questions/496139