Failover

Hadoop:如何為數據節點配置故障轉移時間

  • November 2, 2016

如果數據節點失敗,我需要在我的 HDFS 集群上重新複製塊。實際上,這似乎在大約 10 分鐘後就已經發生了。但是,我想減少這個時間,但想知道該怎麼做。

我試圖設置dfs.namenode.check.stale.datanode但沒有任何大的成功。那麼配置選項是什麼,或者我必須在這裡調整哪些選項才能將其減少到 1 分鐘?

hdfs-site.xml 的完整部分如下所示

<property>
   <name>dfs.namenode.check.stale.datanode</name>
   <value>true</value>
   <description>Activate stale check</description>
</property>

<property>
   <name>dfs.namenode.stale.datanode.interval</name>
   <value>10</value>
   <description>Timeout</description>
</property>

根據對hadoop-user-mailing-list的討論,似乎dfs.namenode.heartbeat.recheck-interval需要在hdfs-site.xml. 直到一個數據節點被標記為死亡的時間是從這個時間開始計算的dfs.heartbeat.interval。實際上是一個配置

<property>
   <name>dfs.namenode.heartbeat.recheck-interval</name>
   <value>10000</value>
</property>

導致大約 45 秒,直到節點被標記為死亡。(這適用於 Hadoop 2.6)

引用自:https://serverfault.com/questions/661214