Backup

VM NetWorker 伺服器每晚都會失去硬碟

  • April 26, 2017

在 ESXi 主機上執行的帶有 sp1 虛擬機的 Server 2008 R2 上執行 EMC NetWorker 伺服器。VMDK 與我們組織執行的所有其他 VM 伺服器的 VMDK 一起儲存在 VNXe 電腦上。其他虛擬機都沒有這個問題:

這週後半段的每個晚上,晚上 9 點之後的某個時間,該伺服器都會失去其硬碟驅動器。早上檢查系統,我發現這台機器在嘗試 PXE 後處於啟動提示符處,並報告它找不到可啟動設備。檢查虛擬機設置,我發現機器上沒有連接硬碟。

恢復就像為系統分配一個新的硬碟驅動器並將其指向仍然位於 VNXe 上託管的數據儲存上的現有 VMDK 一樣簡單。

vSphere 伺服器不報告任何錯誤或任何錯誤。

伺服器本身的系統日誌中沒有任何資訊,所以我很確定它不知道發生了什麼。

當我開始使用 NetWorker 系統增加備份,添加新主機到備份時,問題就開始了。目前,我僅使用 NetWorker 伺服器中內置的已配置 VADP 代理備份虛擬主機,以及使用該電腦本地已安裝的 NetWorker 客戶端的測試 SQL 伺服器(也是 VM)。我正在備份 NetWorker 伺服器本身,因為文件指出這不應該有問題,但在發現此問題後不久就禁用了該備份。

我需要找出 VMDK 與 NetWorker 伺服器分離的方式和原因。有人明確地告訴我會很好,但也許有助於找到顯示系統所發生的一切的 vSphere 日誌將是朝著正確方向的一個好點。

更新:附加細節

虛擬機的備份計劃在每晚 9 點開始。

從此 VM 的 vSphere 日誌中:

  • 2/21 晚上 9:00:11:任務:創建虛擬機快照。
  • ***2/22 凌晨 2:18:57:任務:刪除快照。***這是此 VM 本身的第一次嘗試計劃備份,表明備份系統成功且正確執行。
  • 2/22:我將機器遷移到不同的 ESXi 主機(HA 配置中有三台相同的主機)以更好地安排資源。
  • ***2/22 晚上 9:00:15:任務:重新配置虛擬機。***這是第一次從 VM 中移除 HDD。
  • 2/23 上午 8:25 左右:檢查系統我第一次發現此 VM 上缺少 HDD。這讓我相信由 NetWorker 計劃備份觸發的快照操作正在被 ESXi 主機轉換為“從該 VM 中刪除 HDD”。
  • 2/23 晚上 9:00:14:任務:重新配置虛擬機。
  • 2/24 我重新連接了 HDD 並在 NetWorker 中禁用了此 VM 的所有計劃備份。
  • 2/24 晚上 9:31:32:任務:重新配置虛擬機。
  • 2/25 晚上 9:00:15,2/26 晚上 9:00:11:相同的重新配置虛擬機任務會從該 VM 中移除 HDD。第二天早上我重新貼上它。

根據此日誌,我需要檢查以下內容:

  • 當 VM 在不同的主機上執行時,問題是否仍然存在?
  • 當根本沒有備份執行時,問題是否仍然存在?

我會檢查這些並報告成功或失敗。

更新 2:故障排除報告

我還發現了一件事:在 NetWorker 中每個 VM 客戶端的配置中,都有一個地方記錄了該 VM 所在的 ESXi 主機。當我將虛擬機 vMotion 移動到不同的 ESXi 主機時,該值不會更新,即使在 NetWorker 中啟用了虛擬機自動檢測。所以我將 VM 客戶端配置中的這個值更新為目前的 ESXi 主機。如果 AutoDetect 能夠自行更新,那就太好了。

因此,報告我昨天嘗試的故障排除:

首先,今天早上仍然連接著 HDD,這證實了該問題至少是由 NetWorker 觸發的。我昨天禁用了所有備份,並將 NetWorker 伺服器移到了新的 ESXi 主機上。我還更新了上一段中提到的 ESXi 主機資訊。

今天,我重新啟用了大部分備份(不使用 SQL 和 Exchange 等高可用性系統。

如果今晚移除了 HDD,那麼問題就出在備份配置上。

如果今晚沒有移除硬碟,那麼是主機配置資訊或主機本身導致了問題。

更新 3:故障排除跟進

昨晚硬碟又失去了,這意味著問題可能是 NetWorker 配置。

回顧一下:昨晚我執行了幾個 VM(但不是 NetWorker 伺服器)的計劃備份,就在晚上 9 點之後,我看到了我在問題前面提到的相同日誌條目,導致不再有與相關聯的 HDD虛擬機。

還有一件事我會嘗試:根據 EMC 文件,NetWorker 伺服器也可以是一個儲存節點,並且大多數 VM 都通過這個節點處理它們的備份(這與 VADP 是分開的)。我將通過節點備份禁用這些,看看是否有區別。

此外,我們的 NAS/網路驅動器的物理系統備份和 NDMP 備份工作正常。

我將開始隔離虛擬機並一次將一個添加到備份中,以查看是否可以確定是否是特定虛擬機導致了問題。這是我應該能夠在工作時間測試的東西。

更新:測試發光

好的,問題是每當我嘗試使用 VADP 備份 VM 時。

我使用各種設置排列測試了正在執行和關閉 VM 的備份,關於 NetWorker 伺服器是否失去其驅動器的唯一決定因素是我是否在目標 VM 上安裝了 NetWorker 客戶端並使用NetWorker 客戶端或使用 VADP。

使用客戶端嚮導配置備份時,首先選擇是配置新的 VADP 代理、VM 備份客戶端還是 NetWorker 客戶端。

如果您選擇 VM 備份客戶端,那麼您可以選擇是使用 VADP(這是預設設置)還是使用安裝在 VM 上的 NetWorker 客戶端進行備份(如果您需要任何特殊配置進行備份。VADP 命中實際的 VMDK 並與 VMWare 集成。NetWorker 仍然“知道”客戶端是 VM,但可用於指定特定的驅動器、VSS 和其他功能。VADP 備份 VM 而不使用任何來賓資源,完全依賴 ESXi 主機. NetWorker 客戶端軟體使用客戶端資源來執行備份。

因此,執行 VM 主機的 VADP 備份是從 NetWorker 伺服器中移除 HDD 的原因。當 HDD 被丟棄時,vSphere 客戶端中會顯示更多日誌條目:

  • 啟動 VADP 代理備份大約 20 秒後,vSphere 報告嘗試將 NetWorker 伺服器從 VM2 遷移到 VM2
  • 然後重置​​ NetWorker 伺服器
  • 然後一個事件表明“已獲得 typemks 的票”
  • 然後是關於分配給 VM 的影片記憶體量的警告
  • 最後報告 NetWorker 伺服器 VM 已打開電源。

可能為時已晚,但這可能有助於未來的規劃。

發生這種情況的原因 使用 HotAdd 傳輸模式備份作為備份代理的虛擬機後,備份成功完成,但在清理過程中,正常虛擬磁碟與 HotAdded 磁碟一起被錯誤地刪除。

當時是 VDDK 套件的一個已知問題 - http://www.vmware.com/support/developer/vddk/VDDK-1.2.1-Relnotes.html。在建構 hotadd 環境時,不要使用 VADP 備份代理非常重要。

引用自:https://serverfault.com/questions/363729