裸機到大數據：所有這些可以在同一個集群上一起執行嗎？

March 16, 2018

我是一個非常新的系統管理員（16 年級），我被要求創建一個包含 3 個裸機 PowerEdge 伺服器的大數據集群。我有以下請求要放在集群上：
*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R（Spark 和 Hadoop 庫） *Zeppelin *Cassandra
我想知道這些是否都可以“很好地結合在一起”，因為我對大數據知之甚少，搜尋結果是很多“x VS y”頁面而不是“x AND y”。是否有首選的行業標準？
提前感謝您的建議！

當然，它們可以在這些伺服器上共存，但通常您會使用一種伺服器來保存實際數據，而另一種伺服器來完成繁重的計算工作。然後在同一台伺服器上執行 Cassandra DB 也有點不標準，但你可以再次完成所有這些，它會工作，不僅僅是我會這樣做。
如果尚未訂購伺服器並且您可以影響它們的規格，我會嘗試做的一件事是擁有一組大而慢的數據磁碟（通常是多 TB 7.2krpm 3.5" 磁碟），然後是一些 SSD 或用於數據庫和計算工作的 10krpm 磁碟。在一種類型的磁碟上執行整個事情通常沒有意義。這也會非常佔用記憶體，不要吝嗇，你可能還需要合理數量的 CPU 核心，對於所有這些工作，我會說每台伺服器至少有 12 個或更多。
無論如何，我希望這會有所幫助，看看 Cloudera 和 Ambari 的 Hadoop 環境，它們不是免費的，但可以讓你擺脫很多麻煩。

引用自：https://serverfault.com/questions/902027

相關問答

管理 Hadoop 集群中的可用文件描述符

December 4, 2010

PHP 的 error_log 是否依賴於作業系統、配置文件或其他東西？

November 5, 2022

如何在 Linux 中將日期格式設置為全域 ISO？

February 16, 2022

是否有用於配置 IPv6 地址的 Linux 核心引導參數？

January 11, 2022

CentOS 7 路由器/DHCP 伺服器：插入第二個 NIC 適配器但不通過電纜發送網際網路

April 16, 2021

如何將 MySQL 伺服器綁定到多個 IP 地址？

April 16, 2021