Azure

AKS 版本升級錯誤:操作失敗,狀態為:“衝突”。詳細資訊:集群處於故障狀態時不允許升級

  • June 22, 2021

我注意到 AKS 服務之一處於失敗狀態。當我去診斷時,我發現不再支持目前版本。所以我嘗試按照此處所述的說明進行操作:https ://docs.microsoft.com/en-us/azure/aks/upgrade-cluster

我首先執行了命令:

az aks get-upgrades --resource-group myResourceGroup --name myAKSCluster --output table

進而:

az aks upgrade --resource-group myResourceGroup --name myAKSCluster --kubernetes-version new_version

這會產生一個錯誤:

操作失敗,狀態為:“衝突”。詳細資訊:當集群處於故障狀態時,不允許升級。有關解決步驟,請訪問https://aka.ms/aks-cluster-failed以排除集群狀態可能失敗的原因以及修復集群狀態的步驟。

因此,由於舊版本導致狀態失敗,並且由於狀態失敗而無法更新版本……我檢查了這個https://stackoverflow.com/questions/54631309/this-container-service-is-in-a-失敗狀態,但這不是我們的問題,我們有很多資源可以使用(我們檢查過az aks show --resource-group myResourceGroup --name myAKSCluster --query agentPoolProfiles

刪除和重新創建 AKS 不是一種選擇。

因此,經過數小時嘗試不同的解決方案並失敗後,我在此處的答案中找到了解決此問題的方法:https ://github.com/Azure/AKS/issues/542

為了修復由於版本過時而導致的失敗狀態,我必須簡單地執行以下操作:

升級到已經存在的版本。所以我的版本是 1.14.8,我只是執行:

az aks upgrade  --resource-group myResourceGroup  --name myAKSCluster --kubernetes-version 1.14.8

修復了集群的失敗狀態!

在此之後,我剛剛升級到正確的下一個版本(在我的情況下為 1.18.19):

az aks upgrade  --resource-group myResourceGroup  --name myAKSCluster --kubernetes-version 1.18.19

我希望這可以節省幾個小時的挫敗感:)

引用自:https://serverfault.com/questions/1067433