Ubuntu Server 24 安装3090GPU
1 显卡底层配置
1.1 安装Driver
sudo ubuntu-drivers list --gpgpu
1.2 确认驱动版本
确认当前内核加载的驱动版本 ** 请先运行以下命令,直接向系统内核询问它当前正在使用的驱动版本号:
cat /proc/driver/nvidia/version
1.3 安装utils 工具
Warning
这里要注意,安装对应版本的 utils .
sudo apt install nvidia-utils-580-server ##
1.4 安装toolkit工具
apt install nvidia-cuda-toolkit -y
1.5 安装cudnn
apt install nvidia-cudnn -y
1.6 显卡动态监控工具 (nvtop)
nvidia-smi 只能看静态的瞬间状态,而深度学习训练通常需要跑几个小时甚至几天。你需要一个像 htop 一样能实时、动态、图形化查看 RTX 3090 显存占用率、GPU 算力使用率和温度的工具。
sudo apt install -y nvtop
1.7 NVIDIA Container Toolkit
(GPU 容器支持)
现代深度学习项目(特别是 Github 上的开源大模型项目)为了避免环境冲突,通常会提供 Docker 镜像。默认的 Docker 是无法调用宿主机的显卡的。为了让 Docker 容器能够“穿透”并使用你直通的 RTX 3090,必须安装这个工具包。
# 添加官方源并安装
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt update
sudo apt install -y nvidia-container-toolkit,docker
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
2 验证是否安装成功
2.1 命令验证
# 驱动是否安装成功
nvidia-smi
# 验证cuda 是否安装册成功
nvcc -V
# 验证nvidia-cudnn 是否安装成功
cat /usr/include/x86_64-linux-gnu/cudnn_version.h | grep CUDNN_MAJOR -A 2
2.2 代码验证
请安装好 Anaconda 和 PyTorch 环境之后运行以下代码:
import torch
# 1. 测试驱动与 CUDA 基础功能
print("CUDA 是否可用: ", torch.cuda.is_available())
print("当前显卡型号: ", torch.cuda.get_device_name(0))
# 2. 测试 cuDNN 是否正常工作
print("cuDNN 是否可用: ", torch.backends.cudnn.is_available())
print("cuDNN 版本号: ", torch.backends.cudnn.version())
# 3. 跑一个简单的张量乘法,测试算力引擎
x = torch.rand(10000, 10000).cuda()
y = torch.rand(10000, 10000).cuda()
z = torch.matmul(x, y)
print("矩阵乘法测试完成,设备: ", z.device)
3 快照规范
# NVIDIA 显卡配置 。
1. Driver 安装。
2. utils 工具
3. toolkit工具
4. toolkit工具
5. cudnn