Hadoop：如何為數據節點配置故障轉移時間

November 2, 2016

如果數據節點失敗，我需要在我的 HDFS 集群上重新複製塊。實際上，這似乎在大約 10 分鐘後就已經發生了。但是，我想減少這個時間，但想知道該怎麼做。
我試圖設置dfs.namenode.check.stale.datanode但沒有任何大的成功。那麼配置選項是什麼，或者我必須在這裡調整哪些選項才能將其減少到 1 分鐘？
hdfs-site.xml 的完整部分如下所示
&lt;property&gt;
   &lt;name&gt;dfs.namenode.check.stale.datanode&lt;/name&gt;
   &lt;value&gt;true&lt;/value&gt;
   &lt;description&gt;Activate stale check&lt;/description&gt;
&lt;/property&gt;

&lt;property&gt;
   &lt;name&gt;dfs.namenode.stale.datanode.interval&lt;/name&gt;
   &lt;value&gt;10&lt;/value&gt;
   &lt;description&gt;Timeout&lt;/description&gt;
&lt;/property&gt;

根據對hadoop-user-mailing-list的討論，似乎dfs.namenode.heartbeat.recheck-interval需要在hdfs-site.xml. 直到一個數據節點被標記為死亡的時間是從這個時間開始計算的dfs.heartbeat.interval。實際上是一個配置
&lt;property&gt;
   &lt;name&gt;dfs.namenode.heartbeat.recheck-interval&lt;/name&gt;
   &lt;value&gt;10000&lt;/value&gt;
&lt;/property&gt;
導致大約 45 秒，直到節點被標記為死亡。（這適用於 Hadoop 2.6）

引用自：https://serverfault.com/questions/661214

Hadoop：如何為數據節點配置故障轉移時間

相關問答

用於 HDFS 的 EC2 實例儲存的最佳 RAID 配置

列出 hdfs 目錄下的所有文件

是否可以在 hadoop 集群中混合不同的 RHEL OS 版本？

重新安裝一個節點後如何修復缺少塊的 Hadoop HDFS 集群？

在 hdfs 檔中復製文件

在 Hadoop 中，如何顯示 -copyFromLocal 的目前程序