Hadoop
Hadoop 數據節點 - 從一個磁碟開始,稍後添加更多,或者從盡可能多的磁碟開始並平均填充它們
關於 Hadoop 集群中的 Datanode 磁碟設置,我想知道以下內容。這兩個選項哪個更好:
- 將一個(或幾個)磁碟添加到 Datanode,並在它們開始填充後附加更多。
- 或者從一開始就從盡可能多的磁碟開始並同時填充它們。
其他兩個相關的問題:最好獲得盡可能大的驅動器,以便為有限數量的驅動器插槽獲得最大容量?
單個Datanode可以支持多少儲存?(當然這取決於 Datanode 硬體規範,但仍然……任何近似限制?)
首先,主軸的數量與 mapreduce 作業的性能直接相關(在一定程度上)。通常,您希望每個主軸執行 1-2 個 CPU 核心之類的操作。
其次,事後平衡額外的主軸可能是一個挑戰。直到最近才添加程式碼來跨主軸進行數據節點內重新平衡。正常平衡器僅在節點之間進行平衡,因此您仍然可以獲得不平衡的主軸。有一些支持可以調整塊放置策略,以便在您添加新主軸時它會隨著時間的推移而趨於平穩,但這意味著新數據只會寫入最少使用的主軸。
第三,此時我可能不會做超過 12 個 6TB 驅動器(或每個數據節點約 72TB)。這將處理價值數百萬塊的數據。除此之外,您開始遇到一些需要集群調整的性能問題,因為諸如數據節點塊報告之類的事情花費了太長時間。其中很多將取決於您的案例。
我見過具有更高驅動器密度的集群,但需要進行大量調整才能使其工作(即使那樣仍然存在問題)。