Linux

裸機到大數據:所有這些可以在同一個集群上一起執行嗎?

  • March 16, 2018

我是一個非常新的系統管理員(16 年級),我被要求創建一個包含 3 個裸機 PowerEdge 伺服器的大數據集群。我有以下請求要放在集群上:

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R(Spark 和 Hadoop 庫) *Zeppelin *Cassandra

我想知道這些是否都可以“很好地結合在一起”,因為我對大數據知之甚少,搜尋結果是很多“x VS y”頁面而不是“x AND y”。是否有首選的行業標準?

提前感謝您的建議!

當然,它們可以在這些伺服器上共存,但通常您會使用一種伺服器來保存實際數據,而另一種伺服器來完成繁重的計算工作。然後在同一台伺服器上執行 Cassandra DB 也有點不標準,但你可以再次完成所有這些,它會工作,不僅僅是我會這樣做。

如果尚未訂購伺服器並且您可以影響它們的規格,我會嘗試做的一件事是擁有一組大而慢的數據磁碟(通常是多 TB 7.2krpm 3.5" 磁碟),然後是一些 SSD 或用於數據庫和計算工作的 10krpm 磁碟。在一種類型的磁碟上執行整個事情通常沒有意義。這也會非常佔用記憶體,不要吝嗇,你可能還需要合理數量的 CPU 核心,對於所有這些工作,我會說每台伺服器至少有 12 個或更多。

無論如何,我希望這會有所幫助,看看 Cloudera 和 Ambari 的 Hadoop 環境,它們不是免費的,但可以讓你擺脫很多麻煩。

引用自:https://serverfault.com/questions/902027