Windows-Server-2008-R2

一個未知的工具正在擦除我們的虛擬機,我們無法辨識它

  • August 4, 2014

vSphere 上 Windows 2008 R2 虛擬機的控制台視圖顯示以下螢幕:

節目截圖

“操作 2 of 2”“擦除磁碟”

有人可以建議這個程序是什麼嗎?

關於這個謎團的一些資訊:

現在影響了許多虛擬機。症狀是重新啟動後出現“找不到作業系統”消息。

  • 虛擬機在 ESXi 上執行。虛擬機在特定數據儲存上執行
  • Netapp NFS Mounting the disk in a working box 顯示沒有分區表,還不能進行十六進制轉儲。
  • VM 沒有硬重置,必須是作業系統啟動的軟重置
  • 沒有安裝 iso 沒有對 VM 的“非來賓”訪問,因此需要 RDP 或類似的
  • 使用 netapp 備份軟體通宵執行備份
  • 有問題的 NFS 在後端(陣列級別)上進行了精簡配置,並且在我們看到這些問題之後就用完了空間。

不幸的是,看起來我們可能無法深入了解應用程序是什麼,但為了從這個事件中獲得一些價值,我想創建一個參考答案。這是以 VMware 和虛擬層管理為中心。許多管理員處於隔離狀態,無法快速獲得訪客或儲存訪問權限,這是給他們的 :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf似乎與@MosheKatz 發現的實際應用程序最接近。

如果將來發生這種情況,則應進行如下調查:

  • 您注意到一些但並非所有虛擬機都崩潰了。您懷疑這是由於儲存問題(因為它通常是最可能的原因)
  • 首先嘗試隔離一個共同因素。所有崩潰的虛擬機是否共享同一個數據儲存?在這種情況下,它們是,但有些機器沒問題,所以我們排除了明顯的硬體問題。
  • 檢查所有損壞的虛擬機,看看是否存在共同因素(時間、功能等)。在這種情況下,沒有。
  • 檢查其他異常事件。某事在這裡舉起了旗幟:
    • NFS 儲存采用精簡備份(在陣列級別)。這意味著雖然例如。200GB 提供給 ESXi 主機,實際上只有 100GB 可用。但是,只有數組具有此知識。我們發現許多虛擬機因磁碟空間不足而暫停。我們認為這可能是根本原因,所以我們的首要行動是在後端分配更多儲存空間,以消除這個問題。
  • 一旦這個問題得到解決(一個簡單的 UI 更改),並且暫停的虛擬機成功重啟,我們就回到了原來的問題。我們將損壞的 VM 中的虛擬磁碟安裝到正常工作的 VM 上,並看到磁碟上沒有分區表。我們沒有可用的十六進制查看器,因此不得不假設磁碟現在是空的。
  • 監控系統向剛剛無響應的新虛擬機發出警報。這很棒,因為由於磁碟空間問題,大量虛擬機在幾分鐘前就沒有響應了,所以這個新虛擬機很快被發現的事實是良好監控管理的標誌。
  • 我們打開一個控制台並檢查了客人,並看到了上面的螢幕截圖。
    • 在這個階段,我去伺服器故障聊天室查看是否可以辨識程序,同時我的儲存同事檢查所有虛擬層日誌和事件,以確保沒有儲存操作從我們的區域執行。
  • 我們應該做的是掛起虛擬機,讓掛起文件被寫出,並分析轉儲以查看是否可以辨識正在執行的程序。將 VM 掛起到核心 PDF VMware KB

歸根結底,我們知道虛擬基礎設施工具不會像上面那樣在來賓中報告。我們可以看到沒有安裝 ISO,也沒有針對 VM 記錄任何事件。我們可以看到虛擬機沒有“硬重啟”,只是軟重啟(這對底層基礎設施是不可見的)。我們知道這不是儲存方面,因為我們已經排除了這一點。我們懷疑它不是自動化的,因為它是在幾個小時內發生在特定虛擬機上的。我們猜這不是惡意的,因為如果是的話,為什麼控制台會報告磁碟擦除:)

因此,結論是使用者啟動了磁碟擦除。這就是我的調查所進行的,但我希望你發現它有用。

得到教訓:

  • 備份和測試您的恢復
  • 確保所有使用者,特殊管理員使用者,知道他們在精簡配置環境中工作,並且應該避免像寫出磁碟格式化這樣的事情(即寫入負載 1
  • 建立良好的監控系統。
  • 還有一個對我來說是新的:在任何大型虛擬環境中,準備好工具 VM,甚至關閉電源,並安裝診斷工具;性能,網路儲存。如果這是可用的,我們可以在損壞的磁碟上掛載並執行十六進制轉儲,以查看它是否真的是空的,或者只是缺少一個 mbr。我們也可以看到它是否用 1 寫出來。

引用自:https://serverfault.com/questions/615130