Amazon-Ec2

用於 HDFS 的 EC2 實例儲存的最佳 RAID 配置

  • October 5, 2020

我正在嘗試確定在用於 HDFS 的 3x d2.2xlarge 實例的實例儲存上配置 RAID 陣列是否有任何實際優勢。最初我計劃隻掛載每個儲存並將其添加為 Hadoop 的附加數據目錄。但似乎 RAID 0 或 10 配置可能會帶來一些額外的性能提升。由於持久性由 HDFS 本​​身處理,因此無需從該角度考慮 RAID 1 或 5(例如:如果一個實例上的一個或所有儲存失敗,則由其他數據節點的複制提供持久性)。RAID 6 似乎不切實際,因為已知的問題是重建時間長,並且由於 2x 奇偶校驗寫入而降低了吞吐量性能(再次似乎最好讓 HDFS 處理持久性)。這使得 RAID 0 和 10 在理論上都比標準 HDD 具有更好的磁碟 I/O。

老實說,根本不推薦使用 RAID 來支持 HDFS。cloudera社區門戶上有一個文章-

https://community.cloudera.com/t5/Support-Questions/Should-we-use-RAID-with-Hadoop/td-p/201381

https://community.cloudera.com/t5/Support-Questions/Do-we-config-our-hadoop-right-JBOD-vs-RAID/td-p/187997

關於這一點。

引用自:https://serverfault.com/questions/1022967