vGPU 卸载安装驱动

1 说在前面的话

  1. 不要用延长线。
  2. 显卡供电要充足。例如Tesla P40 需要两个 6+2 pin 接口接入一个汇入接口。

2 环境准备

2.1 下载地址

  1. 驱动下载地址
NVIDIA-GRID-vSphere-8.0-535.216.01-538.95.zip
  1. 解压压缩包

image.png|700

2.2 开启 SSH

  1. 启用 SSH ,可以进入服务让 SSH 开机自启。
    image.png|700

2.3 进入维护模式

esxcli system maintenanceMode set --enable true

2.4 列出当前安装的驱动

Note

如果没有输出,就说明还未安装驱动。

esxcli software vib list | grep -i nvd
NVD-VMware_ESXi_8.0.0_Driver   535.54.06-1OEM.800.1.0.20613240       NVD              VMwareAccepted      2025-09-13    host
nvdgpumgmtdaemon               535.54.06-1OEM.700.1.0.15843807       NVD              VMwareAccepted      2025-09-13    host

2.5 卸载驱动

Note

如果有输出,请卸载驱动重新安装。

esxcli software vib remove --vibname=nvdgpumgmtdaemon
esxcli software vib remove --vibname=NVD-VMware_ESXi_8.0.0_Driver

2.6 安装驱动

esxcli software vib install -d  /tmp/NVD-VGPU-800_535.216.01-1OEM.800.1.0.20613240_24299999

esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon_535.216.01-0.0.0000_24299789

3 查看是否安装成功

esxcli software vib list | grep -i nvd
NVD-VMware_ESXi_8.0.0_Driver   535.216.01-1OEM.800.1.0.20613240      NVD              VMwareAccepted      2025-09-14    host
nvdgpumgmtdaemon               535.216.01-1OEM.700.1.0.15843807      NVD              VMwareAccepted      2025-09-14    host

4 退出维护模式

esxcli system maintenanceMode set --enable false

5 重新引导

reboot

6 检测是否能够正常显示显卡

nvidia-smi
Sun Sep 14 05:07:26 2025
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.54.06              Driver Version: 535.54.06    CUDA Version: N/A      |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla P40                      On  | 00000000:81:00.0 Off |                    0 |
| N/A   76C    P8              25W / 250W |     54MiB / 23040MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

7 关闭ECC 纠错

为了保证vGPU的运行,您需要关闭显卡的ECC纠错。如果不关闭,则会导致压力测试时,显卡丢失。

# 关闭ECC纠错
nvidia-smi -e 0

8 配置vGPU图形化

登录到vCenter,选择刚才安装vGPU驱动的ESXI主机。点击菜单栏中的配置,在刷新的窗口中点击图形。点击主机图形,点击编辑打开编辑主机图形设置窗口。在设置窗口里选择直接共享,点击确定完成设置。
image.png|700
image.png|700
之后点击 图形设备,选择任意一张显卡,点击 编辑 打开设置窗口。在设置窗口里设置 直接共享相同大小,只需要确保 重启X服务器 勾选就可以,然后点击 确定 重启X服务器。
image.png|700

9 安装授权服务器

Linux 上运行 Docker 服务器。

docker run -d --restart=always -e DLS_URL=192.168.10.9 -e DLS_PORT=443 -p 443:443  makedie/fastapi-dls
参数 说明
-d 以守护进程启动容器
--restart 重启或者报错之后,总是自启动。
-e DLS_URL=192.168.10.9 证书的服务监听地址。
-e DLS_PORT=443 证书服务的监听端口。
-p 443:443 对外暴露443 端口为客户端配置证书。

10 windows 客户端配置

在这里演示两种平台,WindowsLinuxWindows 我用的版本是 Windwos Server 2025Linux使用的版本是 Ubuntu Server 24.04。你可以挑其中一个看,两个部分的内容都很充分。

10.1 Windows平台

创建虚拟机,在新建虚拟机的页面先不编辑配置。虚拟机创建完成后,编辑虚拟机配置。

添加一个PCI设备,可以看到有grid_t4-8q这样的vGPU配置文件。我简单讲一下:

配置文件名称 物理显卡 显存大小 vGPU模式
grid_t4-8q 特斯拉T4 8GB vDWS
grid_t4-1b 特斯拉T4 1GB vPC
grid_t4-4a 特斯拉T4 4GB vAPP
grid_t4-4c 特斯拉T4 4GB vCS

10.1.1

10.2 安装驱动

10.3 配置授权

12 Lunux 客户端配置

12.1 安装驱动

12.2 配置授权

    # 下载证书到指定位置
    # 把我的IP地址改成你的
    curl.exe --insecure -L -X GET https://192.168.10.9/-/client-token -o "C:\Program Files\NVIDIA Corporation\vGPU Licensing\ClientConfigToken\client_configuration_token_$($(Get-Date).tostring('dd-MM-yy-hh-mm-ss')).tok"

    # 重启vGPU CLS服务
    Restart-Service NVDisplay.ContainerLocalSystem

    # 等一分钟
    # 查看vGPU授权情况
    & 'nvidia-smi' -q  | Select-String "License"
    # 成功授权的输出
    vGPU Software Licensed Product
    License Status                    : Licensed (Expiry: YYYY-M-DD hh:mm:ss GMT)

11 调试手段

11.1 手动加载 Nvidia 内核驱动

vmkload_mod nvidia
vmkload_mod -s nvidia

13 参考连接

13.1 万能的 GitHub 连接

这个GitHub fenghan0430/How-to-use-vGPU 连接是起点,

13.2 vGPU 授权服务

如何搭建一个授权服务

README.md · main · Oscar Krause / FastAPI-DLS · GitLab

collinwebdesigns/fastapi-dls - Docker Image | Docker Hub

192.168.10.9/-/readme

13.3 vGPU 驱动下载

驱动 · Issue #4 · fenghan0430/How-to-use-vGPU
FIRC/vgpu-chinese-mirror
NVIDIA-GRID-vSphere-8.0-550.144.02-550.144.03-553.62.zip
FL1623863129的个人主页