Failover
Hadoop:如何為數據節點配置故障轉移時間
如果數據節點失敗,我需要在我的 HDFS 集群上重新複製塊。實際上,這似乎在大約 10 分鐘後就已經發生了。但是,我想減少這個時間,但想知道該怎麼做。
我試圖設置
dfs.namenode.check.stale.datanode
但沒有任何大的成功。那麼配置選項是什麼,或者我必須在這裡調整哪些選項才能將其減少到 1 分鐘?hdfs-site.xml 的完整部分如下所示
<property> <name>dfs.namenode.check.stale.datanode</name> <value>true</value> <description>Activate stale check</description> </property> <property> <name>dfs.namenode.stale.datanode.interval</name> <value>10</value> <description>Timeout</description> </property>
根據對hadoop-user-mailing-list的討論,似乎
dfs.namenode.heartbeat.recheck-interval
需要在hdfs-site.xml
. 直到一個數據節點被標記為死亡的時間是從這個時間開始計算的dfs.heartbeat.interval
。實際上是一個配置<property> <name>dfs.namenode.heartbeat.recheck-interval</name> <value>10000</value> </property>
導致大約 45 秒,直到節點被標記為死亡。(這適用於 Hadoop 2.6)