GKE 節點升級失敗
我希望這是一個正確的地方,我已經關注了 GCP 控制台中的所有支持連結,這些連結將我帶到了這裡!
過去,我經常使用 GCP 控制台讓我的 GKE k8s 主節點和節點保持最新。這一切都無縫地工作……直到現在。我不知道為什麼。我發現了一些 GKE Stackdriver 日誌,但似乎沒有什麼明顯的失敗原因。我可以毫無問題地升級主節點,但是當出現升級節點的選項(集群中只有一個節點)時,升級開始,然後幾秒鐘後它停止。該節點保持在同一版本上,我再次收到升級可用的通知。
我還注意到我不再需要
exec
執行 Pod。錯誤是:
Error from server: error dialing backend: No SSH tunnels currently open. Were the targets able to accept an ssh-key for user "gke-<random-digits>"?
我不確定這是否相關。
我已閱讀此內容:https ://cloud.google.com/kubernetes-engine/docs/troubleshooting#kubect_commands_hang但沒有幫助。
我嘗試重置節點,但這也沒有影響。好吧,我看到的唯一影響是我的一個容器由於 I/O 錯誤而無法再安裝卷!
任何想法從哪裡開始?!
編輯
目前主版本:1.11.6-gke.0
目前節點版本:1.10.7-gke.2
上次操作來自:
gcloud beta container operations describe
endTime: '2019-01-15T23:14:21.936649805Z' name: operation-1547594061714-c2750b4c operationType: UPDATE_CLUSTER selfLink: https://container.googleapis.com/v1beta1/projects/348462677705/zones/europe-west2-a/operations/operation-1547594061714-c2750b4c startTime: '2019-01-15T23:14:21.714859214Z' status: DONE targetLink: https://container.googleapis.com/v1beta1/projects/348462677705/zones/europe-west2-a/clusters/clubbed-cluster zone: europe-west2-a
以上
UPDATE_CLUSTER
操作每天每一分鐘都在不斷發生!
回到工作!升級到 1.11.6-gke.2 後,節點升級失敗和 SSH 失敗均已解決。
它是否與 2019 年 1 月 14 日發行說明中提到的 Endpoint API 修復有關?
感謝您的支持!