Google-Compute-Engine
在 GCE 上,突然的磁碟 I/O 並且不能再 SSH in
我一直在使用 GPU 在 GCE 上執行很長時間。它不是一個可搶占的實例。
我正在使用實例上的 SSH 和 TMUX 監視本地終端上的作業,因此如果 SSH 連接中斷,它會繼續執行。螢幕凍結了,所以我嘗試從另一個終端視窗進行 SSH,但 SSH 也凍結了。
我去Google云控制台嘗試看看發生了什麼,並且有很多磁碟讀取正在進行:
我很確定我所做的一切都沒有導致磁碟讀取。
知道發生了什麼嗎?我希望我的工作仍在執行,我不想重新開始,所以我寧願不停止並重新啟動我的實例。
我認為 Womble 是正確的,它是一個記憶體和交換問題。
當實例工作時,我通過 SSH 連接並執行了一項小型快速工作,我認為這將記憶體需求推到了邊緣。這種情況持續了幾個小時,所以我停止並重新啟動了實例。
當我從頭開始工作時,問題又發生了。這項工作以前有效,因此我將徹底清除此實例並從頭開始創建一個新實例,並希望它再次有效。
我無法增加記憶體,因為我已經在使用最大值了。