Cloud-Computing

面向 HPC 的雲計算

  • June 1, 2019

我正在研究雲計算服務(例如,AWS 以及其他)是否可以切實地補充我一直用來解決流體動力學問題的傳統集群(例如 Comet、Stampede2、Pleiades)。

也就是說,我需要執行我的程式碼(而不是AWS 在他們的其中一個計劃中宣傳的 OpenFOAM),並且它需要 ~1TB RAM ~36​​0 個具有快速互連的處理器(並且位於同一位置以最小化延遲)。

更普遍的問題是:雲計算是否意味著一切都在一些未知的、可能是小型的機器上虛擬化,或者可以通過雲計算請求使用特定的硬體(在這種情況下,它的使用方式與傳統的集群,但分配過程可能有很大不同)?

在大型公共雲中,AWSAzure聲稱擁有以低延遲網路連接實例的解決方案。應用程序像往常一樣有一個 MPI 實現作為目標。

在某些情況下,您可以更接近地影響實例放置,例如使用集群策略中的 AWS 放置組。他們不會說任何一種方式,但大概這不是專用於 HPC 的機架。只需配備最快的硬體和軟體加速 NIC的機架,即可使用單租戶或專用金屬節點。


或者,如果應用程序可以在大型 NUMA 系統上擴展,也可以考慮這一點。NUMA 仍然具有節點間延遲,但足以執行單個圖像。

對於 x86,截至 2019 年,最新的 Xeon 提供了總共 224 個核心的 8 個插槽。更多的插槽需要自定義互連,只有在 HPE Superdome Flex Server 等稀有野獸上才能看到。前者可作為高記憶體 AWS 實例使用,後者不太可能在雲中租用。

對於 POWER,標準配置中存在像 E980 這樣的 16 插槽系統,但核心數量並不多。

引用自:https://serverfault.com/questions/969672