Hadoop 數據節點 - 從一個磁碟開始，稍後添加更多，或者從盡可能多的磁碟開始並平均填充它們

November 4, 2016

關於 Hadoop 集群中的 Datanode 磁碟設置，我想知道以下內容。這兩個選項哪個更好：
將一個（或幾個）磁碟添加到 Datanode，並在它們開始填充後附加更多。
或者從一開始就從盡可能多的磁碟開始並同時填充它們。
其他兩個相關的問題：最好獲得盡可能大的驅動器，以便為有限數量的驅動器插槽獲得最大容量？
單個Datanode可以支持多少儲存？（當然這取決於 Datanode 硬體規範，但仍然……任何近似限制？）

首先，主軸的數量與 mapreduce 作業的性能直接相關（在一定程度上）。通常，您希望每個主軸執行 1-2 個 CPU 核心之類的操作。
其次，事後平衡額外的主軸可能是一個挑戰。直到最近才添加程式碼來跨主軸進行數據節點內重新平衡。正常平衡器僅在節點之間進行平衡，因此您仍然可以獲得不平衡的主軸。有一些支持可以調整塊放置策略，以便在您添加新主軸時它會隨著時間的推移而趨於平穩，但這意味著新數據只會寫入最少使用的主軸。
第三，此時我可能不會做超過 12 個 6TB 驅動器（或每個數據節點約 72TB）。這將處理價值數百萬塊的數據。除此之外，您開始遇到一些需要集群調整的性能問題，因為諸如數據節點塊報告之類的事情花費了太長時間。其中很多將取決於您的案例。
我見過具有更高驅動器密度的集群，但需要進行大量調整才能使其工作（即使那樣仍然存在問題）。

引用自：https://serverfault.com/questions/811698

相關問答

以程式方式將 ODBC DSN 添加到 Windows 上的 ODBC 管理器的問題

December 2, 2021

用於 HDFS 的 EC2 實例儲存的最佳 RAID 配置

October 5, 2020

列出 hdfs 目錄下的所有文件

June 10, 2020

mkfs + xfs + 什麼是正確的 mkfs cli，以便在巨大的磁碟上創建 xfs 文件系統

December 15, 2019

是否可以在 hadoop 集群中混合不同的 RHEL OS 版本？

November 20, 2019

Virtual-Machines

我應該在物理機還是虛擬機上部署 hadoop？

July 15, 2019