你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
NVIDIA GPU作员自动管理并部署预配 GPU 所需的所有 NVIDIA 软件组件,包括驱动程序安装、 适用于 Kubernetes 的 NVIDIA 设备插件、NVIDIA 容器运行时等。 由于 NVIDIA GPU作员处理这些组件,因此无需在 AKS 群集上单独安装 NVIDIA 设备插件。 这也意味着为了在 AKS 上使用 NVIDIA GPU 操作器,应跳过自动 GPU 驱动程序安装。
重要
AKS 文档和示例中都提到了开源软件。 AKS 服务级别协议、有限保修和 Azure 支持不涵盖你部署的软件。 将开源技术与 AKS 一起使用时,请查阅相应社区和项目维护者提供的支持选项来制定计划。
例如,Ray GitHub 存储库描述了多个在响应时间、用途和支持级别方面各不相同的平台。
Microsoft 将负责生成我们在 AKS 上部署的开源包。 该责任包括对生成、扫描、签名、验证和修补过程拥有完整的所有权,以及对容器映像中的二进制文件的控制。 如需了解详细信息,请参阅 AKS 漏洞管理和 AKS 支持范围。
在您开始之前
- 本文假设你有现有 AKS 群集。 如果没有群集,请使用 Azure CLI、 Azure PowerShell 或 Azure 门户创建群集。
- 需要安装 Azure CLI 2.72.2 或更高版本才能设置
--gpu-driver
字段。 运行az --version
即可查找版本。 如果需要进行安装或升级,请参阅 [安装 Azure CLI][install-azure-cli]。
注释
启用 GPU 的 VM 包含专用硬件,这些硬件定价较高,其可用性受区域限制。 有关详细信息,请参阅 [定价][azure-pricing] 工具和 [区域可用性][azure-availability]。
获取群集的凭据
使用 az aks get-credentials
命令获取 AKS 群集的凭据。 以下示例命令获取 myAKSCluster
资源组中群集 myResourceGroup
的凭据:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
注释
NVIDIA GPU 操作员与同一 AKS 群集上的多个操作系统版本不兼容。
使用 [
az aks nodepool add
][az-aks-nodepool-add] 命令创建启用了 NVIDIA GPU 的节点池并将 API 字段--gpu-driver
设置为值none
,从而跳过自动 GPU 驱动程序安装。 在节点池创建过程中将此 API 字段设置为none
跳过默认的 GPU 驱动程序安装,请参阅 此示例。 不会更改任何现有节点。 可以将节点池缩放至零,然后进行备份,以使更改生效。按照 NVIDIA 文档 安装 GPU 操作器。
成功安装 GPU Operator 后,就可以检查 GPU 是否可调度并运行 GPU 工作负荷了。
注释
使用 NVIDIA GPU Operator 在 SPOT 实例上部署时,还可能需要考虑其他一些因素。 请参考 https://github.com/NVIDIA/gpu-operator/issues/577
后续步骤
- 使用 Azure 托管 Prometheus 和 Azure Managed Grafana 监视 NVIDIA GPU 指标。
- 详细了解 AKS 上的光线群集。