Hadoop 集群。2 台快速、4 台中等、8 台較慢的機器?
我們將購買一些僅用於 Hadoop 集群的新硬體,但我們仍然堅持應該購買什麼。假設我們的預算為 $ 5k should we buy two super nice machines at $ 2500/個,四個左右 $ 1200/each or eight at around $ 600個?hadoop 會在更慢的機器或最少的更快的機器上更好地工作嗎?或者,就像大多數事情一樣“取決於”?:-)
如果可以的話,我會考慮使用像Amazon Web Services (AWS) Elastic Compute Cloud (EC2)這樣的雲基礎設施服務,至少在您確定投資自己的硬體是有意義的之前。購買閃亮的裝備很容易陷入困境(我必須每天抵制)。通過在購買雲之前進行嘗試,您可以學到很多東西並回答以下問題:我公司的軟體 X 或針對此數據集的 map/reduce 框架是否最適合小型、中型或大型伺服器集。我在 AWS 上執行了許多組合,在幾天內以幾美分的價格向上、向下、進出。我們對我們的測試非常滿意,因此決定繼續使用 AWS,並放棄購買我們必須冷卻、供電、維護等的大型機器集群。實例類型包括:
標準實例
- 小型實例(預設)1.7 GB 記憶體、1 個 EC2 計算單元(1 個虛擬核心和 1 個 EC2 計算單元)、160 GB 實例儲存、32 位平台
- 大型實例 7.5 GB 記憶體、4 個 EC2 計算單元(2 個虛擬核心,每個核心有 2 個 EC2 計算單元)、850 GB 實例儲存、64 位平台
- 超大型實例 15 GB 記憶體、8 個 EC2 計算單元(4 個虛擬核心,每個核心有 2 個 EC2 計算單元)、1690 GB 實例儲存、64 位平台
高 CPU 實例
- 高 CPU 中型實例 1.7 GB 記憶體,5 個 EC2 計算單元(2 個虛擬核心,每個核心有 2.5 個 EC2 計算單元),350 GB 實例儲存,32 位平台
- 高 CPU 超大型實例 7 GB 記憶體,20 個 EC2 計算單元(8 個虛擬核心,每個核心有 2.5 個 EC2 計算單元),1690 GB 實例儲存,64 位平台
EC2 計算單元 (ECU) – 一個 EC2 計算單元 (ECU) 提供相當於 1.0-1.2 GHz 2007 Opteron 或 2007 Xeon 處理器的 CPU 容量。
標準按需實例 Linux/UNIX 使用 Windows 使用
小(預設) $ 0.10 per hour $ 每小時 0.125
大 $ 0.40 per hour $ 每小時 0.50
特大號 $ 0.80 per hour $ 1.00 每小時
高 CPU 按需實例 Linux/UNIX 使用情況 Windows 使用情況
中 $ 0.20 per hour $ 每小時 0.30
特大號 $ 0.80 per hour $ 每小時 1.20
很抱歉,回答聽起來像是供應商推銷,但如果您的環境允許您走這條路,我認為您會很高興,並且如果您將來購買自己的硬體,您會做出更好的購買決定。