Kubernetes

Kubernetes:如何獲取哪個 pod schedule GPU?

  • August 22, 2021

我的集群中有三個 Nvidia GPU,我的集群中執行著很多 pod。如何找到這些 pod 中的哪一個調度 GPU 以及它們調度了多少 GPU?

我使用此連結在我的集群中為 Nvidia GPU 啟用 GPU 計劃。 https://kubernetes.io/docs/tasks/manage-gpus/scheduling-gpus/

謝謝

這是 kubectl 外掛kubectl-view-allocations給出的範例:

> kubectl-view-allocations -r gpu

Resource                   Requested       Limit  Allocatable  Free
 nvidia.com/gpu           (71%) 10.0  (71%) 10.0         14.0   4.0
 ├─ node-gpu1               (0%)  __    (0%)  __          2.0   2.0
 ├─ node-gpu2               (0%)  __    (0%)  __          2.0   2.0
 ├─ node-gpu3             (100%) 2.0  (100%) 2.0          2.0    __
 │  └─ fah-gpu-cpu-d29sc         2.0         2.0           __    __
 ├─ node-gpu4             (100%) 2.0  (100%) 2.0          2.0    __
 │  └─ fah-gpu-cpu-hkg59         2.0         2.0           __    __
 ├─ node-gpu5             (100%) 2.0  (100%) 2.0          2.0    __
 │  └─ fah-gpu-cpu-nw9fc         2.0         2.0           __    __
 ├─ node-gpu6             (100%) 2.0  (100%) 2.0          2.0    __
 │  └─ fah-gpu-cpu-gtwsf         2.0         2.0           __    __
 └─ node-gpu7             (100%) 2.0  (100%) 2.0          2.0    __
    └─ fah-gpu-cpu-x7zfb         2.0         2.0           __    __

似乎提供您正在尋找的東西。

此外,顯然,共享 GPU 是可能的(使用 Nvidia 提供的軟體) - 可能對您或將來發現此問題的任何人有用:

引用自:https://serverfault.com/questions/1075327