奇怪的 Azure VM 性能問題
我們在 Azure 上為客戶提供了 5 個 VM。所有虛擬機都執行順利。
現在從星期一開始,其中一個使用者的虛擬機每天下午 4 點 UTC+1 (+-1h) 都在失去性能。當我們遇到這些性能問題時,CPU 隨機執行在 100% 左右。
所有其他 VM 執行平穩,而所有 VM 上的軟體堆棧完全相同。
我們已與 Microsoft 支持聯繫超過 24 小時。與此同時,我們已經重新部署了 2 次虛擬機,一次是通過快照,一次是完全從頭開始。這個問題永遠不會少。
所有其他 VM 在相同的情況下以大約 5-30% 的 CPU 執行。
這個問題根本無法重現。它一次來去去幾個小時。
我們現在有四位經驗豐富的工程師,我們無法解決這個問題。
你們知道這可能是什麼嗎?我很高興有任何意見。我們很快就會在這裡發瘋……
我們在機器上執行的內容:
- O365辦公室
- Adobe 閱讀器
- Avast 防毒軟體
- 火狐/鉻
- 2個專門的機械軟體工具
- 一個驅動器
- 螢幕連接
我們已經為找出/解決問題所做的工作:
- 性能診斷(沒有特定過程導致它)
- 比較 Windows 版本
- 比較所有安裝的軟體
- 比較所有 Azure 設置
- 從頭開始重新創建虛擬機
- 檢查磁碟吞吐量
- 檢查記憶體使用情況
- 完整的 AV 檢查
- 根據 Microsoft 支持的建議,從所有 VM 中刪除 Veeam(通過 Veeam 安裝 SQL express)
- 檢查所有事件日誌 -> 沒什麼特別的
當我記得我們嘗試過的更多事情時,我會在這裡編輯
感謝我們在 Reddit 的可愛朋友,我已經找到了解決方案。因此,我們正在執行 Burstable VM(B 系列),有人向我指出,這些 VM 具有“隨時間推移的突發配額”。
在深入研究之後,我發現這個提示完全符合金錢。我知道這些虛擬機是可爆發的,但我不知道這是如何衡量或限制的。
在使用 azure monitor 對所有 VM 上的 CPU 百分比和“剩餘 CPU 積分”指標進行大量探勘和驗證假設後,它表明 CPU 積分已用完,因此 CPU 的上限為 40%,直到負載減少或積分已累積。
停止和釋放 VM 時,積分將重置為基線,並且在客戶完成對其工作之前,積分永遠不會用完。
非常感謝您讓我朝著正確的方向前進,這為我們省去了很多麻煩。
我們現在已經將大小增加了一倍,它執行得非常好,信用不會變為零。
這只是本週才開始發生,因為我們在周一和周二執行了備份作業,因此當備份開始時,CPU 使用率在中午左右較高,這導致下午 4 點左右的積分下降。
本週剩下的時間,增加的監控和試圖通過增加使用來引發問題確實導致問題再次發生但延遲了。
同樣在分析過程中,我們意識到這個特定使用者只是一次做的更多,因此 CPU 更頻繁地超過 CPU 基線,這進一步減少了 CPU 積分。
在我們弄清楚這一點大約兩個小時後,微軟得出了同樣的結論。
謝謝大家的投入,尤其是 Reddit 使用者 /u/VTi-R,我真的很感激!
您可以在此處了解有關 B 系列 VM 的更多資訊https://azure.microsoft.com/de-de/blog/introducing-b-series-our-new-burstable-vm-size/