Google-Compute-Engine

訪問重新創建的 GCE VM 的串列控制台?

  • October 7, 2020

我有幾個 GKE 節點崩潰並被重新創建,但沒有詳細說明原因。我不知道從這裡去哪裡。我已經登錄到伺服器並檢查了 systemd(ugh) 日誌,但它只包含目前啟動(即使使用 -b1);我懷疑他們從頭開始為替換的 VM 重新創建了啟動磁碟。我查看了串列控制台,但看起來它只能回到目前引導。

崩潰前我真正擁有的只有 IG、IGM 和 GKE 節點池 Stackdriver 日誌,它們除了時間戳之外不提供任何資訊。我會嘗試分享它們,但實際上只是時間戳、主體和所涉及的資源。我的瘋狂預感是某些服務使用了太多記憶體並迫使某些看門狗OOM,但沒有數據我無法證明這一點。

所以:

我正在尋找一種方法來查看崩潰前串列控制台上的內容。我不確定這是否可用,這將是不幸的,因為它基本上是數據中心專業化的第一步。a) 這存在嗎?b) 如何訪問它?

請記住,GKE 集群中的節點是臨時的,當您的節點被重新創建時,由於這些節點不再存在,因此無法查看崩潰前串列控制台中發生的情況。但是,您可能會考慮未來的事件,例如使用日誌記錄功能,並可能使用sink將這些事件發送到 BigQuery 。確實,內部資訊比發送到 Stackdriver Logging 的資訊要好得多,但是如果您的節點被重新創建,這通常意味著某些執行狀況檢查失敗並且它們被自動修復/重新創建。

編輯:

環顧四周,我發現確實是可能的,只需將以下內容添加到您的節點池元數據中,請記住,您必須創建一個新的,因為節點池中的實例組元數據不可編輯:

鍵:串列埠日誌記錄啟用值:true

引用自:https://serverfault.com/questions/1035774