Ubuntu Server 24 安装3090GPU

1 显卡底层配置

1.1 安装Driver

sudo ubuntu-drivers list --gpgpu

1.2 确认驱动版本

确认当前内核加载的驱动版本 ** 请先运行以下命令,直接向系统内核询问它当前正在使用的驱动版本号:

cat /proc/driver/nvidia/version

1.3 安装utils 工具

Warning

这里要注意,安装对应版本的 utils .

sudo apt install nvidia-utils-580-server ## 

1.4 安装toolkit工具

apt install nvidia-cuda-toolkit -y

1.5 安装cudnn

apt install nvidia-cudnn -y

1.6 显卡动态监控工具 (nvtop)

nvidia-smi 只能看静态的瞬间状态,而深度学习训练通常需要跑几个小时甚至几天。你需要一个像 htop 一样能实时、动态、图形化查看 RTX 3090 显存占用率、GPU 算力使用率和温度的工具。

sudo apt install -y nvtop

1.7 NVIDIA Container Toolkit

(GPU 容器支持)

现代深度学习项目(特别是 Github 上的开源大模型项目)为了避免环境冲突,通常会提供 Docker 镜像。默认的 Docker 是无法调用宿主机的显卡的。为了让 Docker 容器能够“穿透”并使用你直通的 RTX 3090,必须安装这个工具包。

# 添加官方源并安装
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt update
sudo apt install -y nvidia-container-toolkit,docker
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker


2 验证是否安装成功

2.1 命令验证

# 驱动是否安装成功
nvidia-smi
# 验证cuda 是否安装册成功
nvcc -V
# 验证nvidia-cudnn 是否安装成功
cat /usr/include/x86_64-linux-gnu/cudnn_version.h | grep CUDNN_MAJOR -A 2

2.2 代码验证

请安装好 AnacondaPyTorch 环境之后运行以下代码:

import torch

# 1. 测试驱动与 CUDA 基础功能
print("CUDA 是否可用: ", torch.cuda.is_available())
print("当前显卡型号: ", torch.cuda.get_device_name(0))

# 2. 测试 cuDNN 是否正常工作
print("cuDNN 是否可用: ", torch.backends.cudnn.is_available())
print("cuDNN 版本号: ", torch.backends.cudnn.version())

# 3. 跑一个简单的张量乘法,测试算力引擎
x = torch.rand(10000, 10000).cuda()
y = torch.rand(10000, 10000).cuda()
z = torch.matmul(x, y)
print("矩阵乘法测试完成,设备: ", z.device)

3 快照规范

# NVIDIA 显卡配置 。 
1. Driver 安装。
2. utils 工具
3. toolkit工具
4. toolkit工具
5. cudnn