Amazon-Ec2

如何使用大量持久數據創建多個相同的 AWS EC2 伺服器實例?

  • September 19, 2012

我有一個 CPU 密集型數據處理應用程序,我想在許多(約 100,000 個)輸入文件中執行它。該應用程序需要一個大的(~20GB)數據文件才能執行。我想做的是

  • 創建一個安裝了我的應用程序和相關數據文件的 EC2 機器映像
  • 啟動該映像的大量(例如 100 個)實例
  • 將我的輸入文件分成 100 批並發送一批以在每個實例上處理

我無法找出確保每個實例都可以訪問大型數據文件的最佳方法。數據文件太大,無法放入 AMI 的根文件系統。我可以使用塊儲存,但給定的塊儲存卷只能附加到單個實例,所以我需要 100 個複製。

有什麼方法可以創建一個在根文件系統上有更多空間的自定義圖像,以便我可以包含我的大數據文件?或者有沒有更好的方法來解決這個問題?

如果數據基本不變,請將其放入 EBS 卷並製作快照。當您啟動每個新節點時,讓它根據快照創建一個新卷並掛載它。製作快照是一個相當緩慢的過程,但基於快照創建卷卻出奇的快!

如果您的數據發生了一些變化,將其放入 S3 是一個更易於維護的過程,數百個節點可以一次提取數據而不會顯著降低速度(與僅一個節點拉取數據相比)。總的來說,這將比上面的 EBS 方法慢,但實現和維護會更簡單。

引用自:https://serverfault.com/questions/429888