Windows-Server-2008-R2
一個未知的工具正在擦除我們的虛擬機,我們無法辨識它
vSphere 上 Windows 2008 R2 虛擬機的控制台視圖顯示以下螢幕:
“操作 2 of 2”“擦除磁碟”
有人可以建議這個程序是什麼嗎?
關於這個謎團的一些資訊:
現在影響了許多虛擬機。症狀是重新啟動後出現“找不到作業系統”消息。
- 虛擬機在 ESXi 上執行。虛擬機在特定數據儲存上執行
- Netapp NFS Mounting the disk in a working box 顯示沒有分區表,還不能進行十六進制轉儲。
- VM 沒有硬重置,必須是作業系統啟動的軟重置
- 沒有安裝 iso 沒有對 VM 的“非來賓”訪問,因此需要 RDP 或類似的
- 使用 netapp 備份軟體通宵執行備份
- 有問題的 NFS 在後端(陣列級別)上進行了精簡配置,並且在我們看到這些問題之後就用完了空間。
不幸的是,看起來我們可能無法深入了解應用程序是什麼,但為了從這個事件中獲得一些價值,我想創建一個參考答案。這是以 VMware 和虛擬層管理為中心。許多管理員處於隔離狀態,無法快速獲得訪客或儲存訪問權限,這是給他們的 :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf似乎與@MosheKatz 發現的實際應用程序最接近。
如果將來發生這種情況,則應進行如下調查:
- 您注意到一些但並非所有虛擬機都崩潰了。您懷疑這是由於儲存問題(因為它通常是最可能的原因)
- 首先嘗試隔離一個共同因素。所有崩潰的虛擬機是否共享同一個數據儲存?在這種情況下,它們是,但有些機器沒問題,所以我們排除了明顯的硬體問題。
- 檢查所有損壞的虛擬機,看看是否存在共同因素(時間、功能等)。在這種情況下,沒有。
- 檢查其他異常事件。某事在這裡舉起了旗幟:
- NFS 儲存采用精簡備份(在陣列級別)。這意味著雖然例如。200GB 提供給 ESXi 主機,實際上只有 100GB 可用。但是,只有數組具有此知識。我們發現許多虛擬機因磁碟空間不足而暫停。我們認為這可能是根本原因,所以我們的首要行動是在後端分配更多儲存空間,以消除這個問題。
- 一旦這個問題得到解決(一個簡單的 UI 更改),並且暫停的虛擬機成功重啟,我們就回到了原來的問題。我們將損壞的 VM 中的虛擬磁碟安裝到正常工作的 VM 上,並看到磁碟上沒有分區表。我們沒有可用的十六進制查看器,因此不得不假設磁碟現在是空的。
- 監控系統向剛剛無響應的新虛擬機發出警報。這很棒,因為由於磁碟空間問題,大量虛擬機在幾分鐘前就沒有響應了,所以這個新虛擬機很快被發現的事實是良好監控管理的標誌。
- 我們打開一個控制台並檢查了客人,並看到了上面的螢幕截圖。
- 在這個階段,我去伺服器故障聊天室查看是否可以辨識程序,同時我的儲存同事檢查所有虛擬層日誌和事件,以確保沒有儲存操作從我們的區域執行。
- 我們應該做的是掛起虛擬機,讓掛起文件被寫出,並分析轉儲以查看是否可以辨識正在執行的程序。將 VM 掛起到核心 PDF VMware KB
歸根結底,我們知道虛擬基礎設施工具不會像上面那樣在來賓中報告。我們可以看到沒有安裝 ISO,也沒有針對 VM 記錄任何事件。我們可以看到虛擬機沒有“硬重啟”,只是軟重啟(這對底層基礎設施是不可見的)。我們知道這不是儲存方面,因為我們已經排除了這一點。我們懷疑它不是自動化的,因為它是在幾個小時內發生在特定虛擬機上的。我們猜這不是惡意的,因為如果是的話,為什麼控制台會報告磁碟擦除:)
因此,結論是使用者啟動了磁碟擦除。這就是我的調查所進行的,但我希望你發現它有用。
得到教訓:
- 備份和測試您的恢復
- 確保所有使用者,特殊管理員使用者,知道他們在精簡配置環境中工作,並且應該避免像寫出磁碟格式化這樣的事情(即寫入負載 1
- 建立良好的監控系統。
- 還有一個對我來說是新的:在任何大型虛擬環境中,準備好工具 VM,甚至關閉電源,並安裝診斷工具;性能,網路儲存。如果這是可用的,我們可以在損壞的磁碟上掛載並執行十六進制轉儲,以查看它是否真的是空的,或者只是缺少一個 mbr。我們也可以看到它是否用 1 寫出來。