Openstack 上的 Hadoop 與物理伺服器

February 11, 2015

我是 Hadoop 新手，並試圖了解它應該如何安裝/配置。從文件中我看到 Hadoop 通常應該了解物理伺服器配置（例如在機架之間複製數據）。所以我不清楚，如果 Hadoop 安裝在一些管理程序層之上（例如使用 OpenStack），在這種情況下如何實現正確的複制。您能否為此指出文章/文件？

這取決於您的拓撲。
如果您將 OpenStack 環境分佈在多個機架/交換機上併計劃移動 Hadoop HDFS 節點，那麼您無法指定拓撲（或者您需要在每次移動 VM 後更改它）。
它仍然可以正常工作，只是效率不如裸機伺服器，而且抗中斷能力較差。
有關更多資訊，您應該閱讀：http
://wiki.apache.org/hadoop/Virtual%20Hadoop 其中還指出：
最重要的意義在於儲存。Google 的 GFS 和 Hadoop 的 GFS 的核心架構設計是三向複製到本地儲存是一種低成本但可靠的儲存 PB 數據的方式。該設計基於 hadoop 的物理拓撲（機架和主機）感知，因此它可以智能地將數據塊放置在機架和主機之間，以從主機/機架故障中獲得生存。在一些雲供應商的基礎設施中，這種設計可能不再有效，因為它們不會向客戶公開物理拓撲（甚至是抽象的）資訊。在這種情況下，當有一天您的所有數據都消失時，您會感到失望，如果在閱讀此頁面後發生這種情況，請不要抱怨：您已被警告。

引用自：https://serverfault.com/questions/666728

Openstack 上的 Hadoop 與物理伺服器

相關問答

Openstack：nova migrate 和 nova evacuate 有什麼區別？

Openstack：是否可以將實例從死的計算伺服器遷移到活動的計算伺服器上？

如何在 openstack 中擁有節點親和性？

Openstack 只為集群中的每台機器建構一個虛擬機，然後耗盡資源

自簽名 ca 證書上的 kubeadm 令牌創建失敗

如何在 OpenStack 的實例中調整捲的大小？