Cluster
是否有集群資源調度器抽象層?
我正在使用非常基本的功能編寫一個可能在任何集群資源調度程序(SGE、LSF或SLURM等)上執行的應用程序。
我想知道是否存在用於以與產品無關的方式與此類工具互動的框架/抽象層?
所有主要資源調度程序都直接或通過附加庫支持DRMAA API 。大多數產品都支持 v1 API,但它的範圍非常有限,它基本上只處理作業送出,並且只提供一個通用的功能子集。v2 API 提供了作業控制和監控的功能,但據我所知尚未被廣泛採用。
分佈式計算的主流沒有採用抽象層類型的軟體,這主要是因為大多數集群之間不共享使用者和資源。有一些例外,例如一些大學和學術機構使用Condor來利用遍布校園的台式機,但它並不特別適合某些類型的工作。
如果您使用除 PBS 變體之外的其他東西,即使在這些調度程序之間,嘗試利用某些功能時可能會出現一些奇怪的不一致,儘管調度程序有時會涉及到更深入的研究。