Google-Compute-Engine

Google Compute Engine - 無法通過 SSH 連接?虛擬機失去網路訪問權限?

  • September 29, 2018

編輯:這是一個失控的申請流程,而不是 GCE。這是問題,並在下面回答:

我剛剛在試用帳戶上的 CE 虛擬機發生了某種中斷,但我沒有在 Google Compute Outage 列表中看到任何中斷報告。

我不確定它持續了多長時間,因為我不確定它是什麼時候開始的。從行為來看,它與幾週前似乎發生的事情相匹配(在重新啟動 VM 之前,無法通過 Compute Engine 儀表板使用 SSH 登錄)。

我的測試虛擬機在最後一天左右斷開了我的 SSH 連接,當我今天注意到時,我無法重新連接。然後,我嘗試使用 Compute Engine VM 列表上的“SSH”連接與 SSH 連接,但失敗了。我唯一能做的就是在串列控制台上得到提示……但我根本沒有啟用密碼的帳戶,我依賴於 SSH(現已修復)。我不得不停止虛擬機並重新啟動它……然後我可以使用虛擬機列表上的“SSH”連接選項進行連接,儘管我無法從外部連接。我連接到串列控制台並看到一些嘗試連接到各種快照的網路錯誤消息。我嘗試從我的 SSH 視窗通過 SSH 連接到遠端伺服器到虛擬機,但最初不能。大約一分鐘後,遠端連接突然恢復正常。

編輯:我收到了來自 Google 的支持請求的回复。他們說我經歷了一次實時遷移事件。這聽起來不對。這至少是 10 分鐘的網路中斷。我可以連接到串列控制台,它似乎反應靈敏。只有在重新啟動並且Google管理失敗後才能初始化它似乎突然開始工作。也許引導中的通信失敗觸發了遷移事件?我不知道。

編輯:我消除了對 GCE 穩定性的擔憂,因為基礎設施與問題無關。

該實例在串列控制台上似乎可以正常工作,但實際上由於失控的 root 特權(臨時測試事物)程序耗盡了所有可用記憶體,它處於高度困境。系統 OOM 殺手不斷殺死該程序,該程序將重新生成。

預設情況下,Google Compute Engine 應監控系統記憶體使用情況。有點奇怪,它沒有。

所以,呃……鑑於這種情況,這個問題對任何人的有用性似乎很低。應該刪除嗎?

發生這種情況可能有多種原因。我建議查看 SSH 故障排除文件以獲取有關如何解決此問題的更多資訊。

如果 Linux 來賓環境在實時遷移後未正確啟動,也可能出現此問題。來賓環境包括一組腳本和程序,這些腳本和程序執行來自元數據伺服器的內容,並為虛擬機執行創建適當的環境。在來賓環境設置期間可能未正確設置 SSH 密鑰。

如本文件中所述,您還可以將“自動重啟”欄位設置為“真” 。如果實例因硬體問題或實時遷移而崩潰,這將自動重啟您的實例。這將確保正確設置了 SSH 密鑰。如果您需要有關 Google Cloud Platform 中實時遷移的更多資訊,請隨時閱讀實時遷移文件。

引用自:https://serverfault.com/questions/933042