Hosting

SOA 架構需要 99.9% 的可用性 -> 最多 9 小時的停機時間 -> 物理架構映射?

  • April 29, 2015

外部架構師已經為面向服務的架構環境設計了架構。他們將可用性固定為 99.9%,相當於最多 9 小時的停機時間

$$ per year $$. 我在哪裡可以找到有關如何將其映射到物理架構的資源?

到目前為止,我們認為我們需要的主要組件是:

  • 帶有數據庫的 drupal CMS(一台機器)
  • API:授權、身份驗證、日誌記錄、管理、PubSub 和學習記錄儲存 LRS:(一台應用伺服器機器)
  • 一台用於儲存的數據庫伺服器(LRS、日誌、配置文件)

這是為一座擁有 500 萬靈魂的城市打造的市政環境。沒有關於並發訪問要求之類的數據,但我不想在這個問題上走高端路線。戰略是從精益但穩健開始,並在需要時進行擴展。

非常歡迎您要求更多資訊或評論組件架構的第一張照片 - 或您可能認為相關的任何內容。謝謝你。

99.5 非常(非常)糟糕且易於操作 - 請記住,單台機器的正常執行時間為 99.9%,因此從技術上講,您只需要保持單獨的伺服器可用,配置到位,每隔幾分鐘備份一次。

通過適當的設置,您應該能夠在最多 10 分鐘內啟動備用機器。

它可以處理除數據中心中斷之外的所有事情,但這些都是 SLA 級別,然後您可以在第二個數據中心上的第二台機器上擁有類似 azure / amazon 的東西。

作為 BlackMesh 的一名工程師,我從事高可用性 Drupal 為生。正如 TomTom 所說,任何 99.9%(“三個九”)及以下的東西都非常簡單。

如果您想花錢添加伺服器和負載平衡器以及所有這些爵士樂,那麼達到 99.9% 以上是很容易的。但是,如果您不這樣做,則可能還有另一種方法。我會將您的解決方案重新架構成兩台機器,並將因缺少第三台機器而節省下來的錢用於使另外兩台更強大。或許與直覺相反,您也可以認真考慮犧牲一定程度的冗餘,例如,您可能會放棄物理機器上的輔助電源,而只是將這兩台機器中的每台連接到不同的匯流排。

無論如何,您對這兩台機器所做的就是將它們設置在適當的集群中。具有在它們之間來回失敗的 HA IP 地址。* 機器 1 是預設的 Web 機器,執行 Drupal。機器二是預設的 DB 和 LRS 機器。如果發生故障,地址會移動,以便剩餘的機器承擔全部負載。對於 MySQL,這將需要 master-master 複製;對於 Drupal,它需要同步 DocRoot(特別注意“文件”目錄);對於您的 LRS,它可能需要手動故障轉移過程。

使用這種類型的配置、良好的硬體、良好的功率等,您應該會看到 5 個 9 (99.999%) 的作業系統正常執行時間(相當於每年大約 5 分鐘的停機時間),並且接近這個數字第 7 層可用性方面。既然你說你需要證明你想出的數字是正確的,五個九假定一個無共享的環境,並且只是單個伺服器的故障率 ( 1.0-99.75%==0.25%) 的平方,以表示兩台伺服器同時離線的機率 ( 1.0-0.25%*0.25%==99.999375%),有點軟糖因素。

最後,我應該指出,這些類型的 SLA 有點像紅鯡魚。有關我對此事的看法,請參閱https://serverfault.com/a/161141/46760 。現實情況是,在此解決方案的整個生命週期中,由於有人粗暴地點擊 Drupal 管理員帳戶(或類似的東西),您將失去 DAYS 天的功能可用性。建立良好的變更控制和類似的流程應該在硬體冗餘討論上給予同等的計費,如果不是第一次計費的話。

*: nb 在任何成員數為偶數的集群中都有可能發生裂腦。降低機率的更好方法之一是通過公共介面路由執行狀況檢查流量。如果您想真正偏執,請查看 STONITH over serial。

引用自:https://serverfault.com/questions/581809