Linux

基於WEB的HPC集群節點管理

  • April 9, 2010

我正在寫我的學校畢業論文。主要目標是創建基於 Web 的應用程序,登錄的使用者可以在其中看到空閒和忙碌的節點,打開和關閉它們,查看它們正在執行的程序等。發現我可以做這樣的事情 - 編寫一些可以執行的 cron 守護程序每隔 30 秒左右,它可以為每個節點執行 ping 實用程序以查明它是打開還是關閉,然後將結果寫入某個文件。然後從我的網路應用程序(我將用 PHP 編寫)我可以閱讀資訊。會是一個好的解決方案嗎?你會建議我怎麼做?最後,是否有任何現有的解決方案(它可能不是基於 ewb 的)來管理集群節點?

過去,我使用 Ganglia 進行節點可用性和負載監控。它不會告訴您正在執行哪些作業,但會顯示集群的執行狀況。

Nagios 是我在集群中使用的其他東西,但它不僅僅是集群監控。它可以監控程序、磁碟空間、記憶體以及您可以編寫腳本或查找腳本的任何內容。這也是基於網路的。

至於作業調度程序,有幾個選項取決於您希望如何配置。選項包括但不限於:OpenPBS、TORQUE、PBSPro、Maui Cluster Scheduler、SLURM、Sun Grid Engine。這些都是我知道中心目前用於 HPC 調度的所有內容。維基百科有一個列表,但我不認為列出的所有內容都是針對 HPC 調度的。http://en.wikipedia.org/wiki/Job_scheduler

網站:

神經節 http://ganglia.sourceforge.net/

納吉奧斯 http://www.nagios.org/

引用自:https://serverfault.com/questions/130705