Cloud

Hetzner 伺服器崩潰時間?

  • September 12, 2019

有沒有人注意到 Hetzner 的大多數伺服器崩潰大約發生在 8:00 GMT+3?就像這裡的例子 我們上個月這個時候得到的:

  1. 碼頭工人“分段錯誤”
  2. 兩個介面上的網路連接都消失了
  3. 伺服器節點關閉,上面有我們的虛擬伺服器
  4. kworker 程序的 CPU 使用率變為 100%

它可以與什麼連接?神秘還是某種雲問題?

無能或糟糕的 SLA?

讓我們從糟糕的 SLA 開始。你得到你所支付的 - 閱讀文書工作。他們能保證高正常執行時間嗎?可能只是在他們時間的停機時間(基本上是非常清晨),他們會進行一些基礎設施重置。現在,這通常不需要,但是,誰知道呢。

無能。修補等不應該重新設置伺服器並且兩個網路連接都出現故障將意味著它們是相同的物理連接(並且您在虛擬機之外沒有兩個連接)或者有人決定一次重置多個實例,那將是無能 - 你建立一個冗餘的基礎設施,然後立即重置所有內容。

核心事實是“不是您的雲,不是您的基礎架構”適用於此。如果無法訪問物理級別,您根本不知道為什麼會發生這種情況並且無法處理任何事情。我建議打開支持票,因為那裡的人確實可以訪問物理級別。在這個時代,您應該在虛擬化上擁有 100% 的正常執行時間,除非發生瘋狂的事情(即缺陷)。打更新檔?將 VM 的生命轉移到另一個實例。進行滾動升級(即一次從集群中移出一台伺服器)。以不會出現故障的方式重置和更新網路(即冗餘硬體,更新一個,等待,然後是另一個)。您仍然無法有效地獲得 100% 的正常執行時間,但任何停機時間都應歸因於非標準操作。

現在,如果你“擁有”伺服器節點——那基本上是你的錯,因為沒有任何冗餘和/或沒有向相關當局開票,因為是的,它可能是有缺陷的硬體——在那裡,看到了。同樣,不是您的電腦,也不是您的訪問權限-您需要他們的技術人員在現場。

引用自:https://serverfault.com/questions/983939