Ssh

GKE 節點升級失敗

  • January 17, 2019

我希望這是一個正確的地方,我已經關注了 GCP 控制台中的所有支持連結,這些連結將我帶到了這裡!

過去,我經常使用 GCP 控制台讓我的 GKE k8s 主節點和節點保持最新。這一切都無縫地工作……直到現在。我不知道為什麼。我發現了一些 GKE Stackdriver 日誌,但似乎沒有什麼明顯的失敗原因。我可以毫無問題地升級主節點,但是當出現升級節點的選項(集群中只有一個節點)時,升級開始,然後幾秒鐘後它停止。該節點保持在同一版本上,我再次收到升級可用的通知。

我還注意到我不再需要exec執行 Pod。錯誤是:

Error from server: error dialing backend: No SSH tunnels currently open. Were the targets able to accept an ssh-key for user "gke-<random-digits>"?

我不確定這是否相關。

我已閱讀此內容:https ://cloud.google.com/kubernetes-engine/docs/troubleshooting#kubect_commands_hang但沒有幫助。

我嘗試重置節點,但這也沒有影響。好吧,我看到的唯一影響是我的一個容器由於 I/O 錯誤而無法再安裝卷!

任何想法從哪裡開始?!

編輯

目前主版本:1.11.6-gke.0

目前節點版本:1.10.7-gke.2

上次操作來自:gcloud beta container operations describe

endTime: '2019-01-15T23:14:21.936649805Z'
name: operation-1547594061714-c2750b4c
operationType: UPDATE_CLUSTER
selfLink: https://container.googleapis.com/v1beta1/projects/348462677705/zones/europe-west2-a/operations/operation-1547594061714-c2750b4c
startTime: '2019-01-15T23:14:21.714859214Z'
status: DONE
targetLink: https://container.googleapis.com/v1beta1/projects/348462677705/zones/europe-west2-a/clusters/clubbed-cluster
zone: europe-west2-a

以上UPDATE_CLUSTER操作每天每一分鐘都在不斷發生!

回到工作!升級到 1.11.6-gke.2 後,節點升級失敗和 SSH 失敗均已解決。

它是否與 2019 年 1 月 14 日發行說明中提到的 Endpoint API 修復有關?

感謝您的支持!

引用自:https://serverfault.com/questions/948391