在阿里云服务器上安装 CUDA,需要根据你使用的实例类型(特别是是否配备 NVIDIA GPU)以及操作系统来操作。以下是详细步骤,适用于阿里云 GPU 云服务器(如 gn6i、gn6v、gn7 等系列)安装 CUDA 的流程。
✅ 前提条件
-
确认实例类型支持 GPU
- 必须是阿里云的 GPU 实例(如
ecs.gn6i-c4g1.xlarge等)。 - 实例需配备 NVIDIA GPU(如 T4、V100、A10 等)。
- 必须是阿里云的 GPU 实例(如
-
操作系统支持
- 推荐使用 Ubuntu 18.04/20.04/22.04 或 CentOS 7/8。
- 这里以 Ubuntu 20.04 为例。
-
已安装 NVIDIA 驱动
- 阿里云部分 GPU 镜像已预装驱动和 CUDA,可先检查是否已安装。
🔍 第一步:检查是否已有 CUDA 和驱动
nvidia-smi
- 如果输出类似下图,说明驱动已安装,且能看到 GPU 信息:
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 | +-----------------------------------------------------------------------------+ - 注意:
CUDA Version: 12.2是驱动支持的最高 CUDA 版本,不代表 CUDA Toolkit 已安装。
📥 第二步:安装 CUDA Toolkit
方法一:使用 NVIDIA 官方仓库安装(推荐)
-
前往 NVIDIA CUDA 下载页面
https://developer.nvidia.com/cuda-downloads -
选择系统信息
例如:- OS: Linux
- Architecture: x86_64
- Distro: Ubuntu
- Version: 20.04
- Installer Type: deb (network)
-
执行命令安装(以 Ubuntu 20.04 为例)
# 下载并添加 CUDA GPG 密钥
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# 更新包列表
sudo apt-get update
# 安装 CUDA Toolkit(包含编译器 nvcc、库等)
sudo apt-get -y install cuda
这会安装最新版本的 CUDA Toolkit(如 12.x)。
方法二:使用阿里云镜像源提速安装(可选)
由于国外源较慢,可使用阿里云镜像站:
# 备份原 sources.list
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
# 编辑 sources.list,替换为阿里云源(Ubuntu 20.04 示例)
sudo tee /etc/apt/sources.list << 'EOF'
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
EOF
# 添加 NVIDIA 官方源(使用阿里云X_X或保持原地址)
# 或手动下载 .deb 包上传
然后继续使用 apt install cuda。
🛠️ 第三步:配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
验证安装:
nvcc --version
输出应类似:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Mon_Apr__3_12:16:04_PDT_2023
Cuda compilation tools, release 12.1, V12.1.105
✅ 验证 CUDA 是否正常工作
运行一个简单测试:
# 复制 CUDA 示例到用户目录
cp -r /usr/local/cuda/samples ~/cuda-samples
cd ~/cuda-samples
# 编译设备查询示例
make -C 1_Utilities/deviceQuery
# 运行
./1_Utilities/deviceQuery/deviceQuery
如果输出中显示 Result = PASS,说明 CUDA 安装成功。
⚠️ 常见问题
| 问题 | 解决方法 |
|---|---|
nvidia-smi 找不到命令 |
未安装驱动,先安装 NVIDIA 驱动 |
nvcc not found |
未安装 CUDA Toolkit 或环境变量未设置 |
| 驱动版本与 CUDA 不兼容 | 使用 nvidia-smi 查看支持的 CUDA 版本,安装对应版本的 Toolkit |
| 安装失败,依赖错误 | 更新系统 sudo apt update && sudo apt upgrade |
🔄 可选:安装特定版本 CUDA(如 11.8)
# 卸载当前 CUDA
sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*"
# 安装指定版本(以 11.8 为例)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.89-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.89-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-11-8
🧩 后续建议
- 安装 cuDNN(深度学习库):需注册 NVIDIA 开发者账号下载。
- 安装 PyTorch/TensorFlow:使用支持 CUDA 的版本,例如:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
📚 参考资料
- NVIDIA CUDA 官方安装指南
- 阿里云 GPU 云服务器文档
如果你提供具体的 实例规格、操作系统、CUDA 版本需求,我可以给出更精确的命令。
CLOUD云枢