阿里云服务器怎么装cuda?

在阿里云服务器上安装 CUDA,需要根据你使用的实例类型(特别是是否配备 NVIDIA GPU)以及操作系统来操作。以下是详细步骤,适用于阿里云 GPU 云服务器(如 gn6i、gn6v、gn7 等系列)安装 CUDA 的流程。


✅ 前提条件

  1. 确认实例类型支持 GPU

    • 必须是阿里云的 GPU 实例(如 ecs.gn6i-c4g1.xlarge 等)。
    • 实例需配备 NVIDIA GPU(如 T4、V100、A10 等)。
  2. 操作系统支持

    • 推荐使用 Ubuntu 18.04/20.04/22.04CentOS 7/8
    • 这里以 Ubuntu 20.04 为例。
  3. 已安装 NVIDIA 驱动

    • 阿里云部分 GPU 镜像已预装驱动和 CUDA,可先检查是否已安装。

🔍 第一步:检查是否已有 CUDA 和驱动

nvidia-smi
  • 如果输出类似下图,说明驱动已安装,且能看到 GPU 信息:
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 535.86.05    Driver Version: 535.86.05    CUDA Version: 12.2     |
    +-----------------------------------------------------------------------------+
  • 注意:CUDA Version: 12.2 是驱动支持的最高 CUDA 版本,不代表 CUDA Toolkit 已安装。

📥 第二步:安装 CUDA Toolkit

方法一:使用 NVIDIA 官方仓库安装(推荐)

  1. 前往 NVIDIA CUDA 下载页面
    https://developer.nvidia.com/cuda-downloads

  2. 选择系统信息
    例如:

    • OS: Linux
    • Architecture: x86_64
    • Distro: Ubuntu
    • Version: 20.04
    • Installer Type: deb (network)
  3. 执行命令安装(以 Ubuntu 20.04 为例)

# 下载并添加 CUDA GPG 密钥
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb

# 更新包列表
sudo apt-get update

# 安装 CUDA Toolkit(包含编译器 nvcc、库等)
sudo apt-get -y install cuda

这会安装最新版本的 CUDA Toolkit(如 12.x)。


方法二:使用阿里云镜像源提速安装(可选)

由于国外源较慢,可使用阿里云镜像站:

# 备份原 sources.list
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak

# 编辑 sources.list,替换为阿里云源(Ubuntu 20.04 示例)
sudo tee /etc/apt/sources.list << 'EOF'
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
EOF

# 添加 NVIDIA 官方源(使用阿里云X_X或保持原地址)
# 或手动下载 .deb 包上传

然后继续使用 apt install cuda


🛠️ 第三步:配置环境变量

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证安装:

nvcc --version

输出应类似:

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Mon_Apr__3_12:16:04_PDT_2023
Cuda compilation tools, release 12.1, V12.1.105

✅ 验证 CUDA 是否正常工作

运行一个简单测试:

# 复制 CUDA 示例到用户目录
cp -r /usr/local/cuda/samples ~/cuda-samples
cd ~/cuda-samples

# 编译设备查询示例
make -C 1_Utilities/deviceQuery

# 运行
./1_Utilities/deviceQuery/deviceQuery

如果输出中显示 Result = PASS,说明 CUDA 安装成功。


⚠️ 常见问题

问题 解决方法
nvidia-smi 找不到命令 未安装驱动,先安装 NVIDIA 驱动
nvcc not found 未安装 CUDA Toolkit 或环境变量未设置
驱动版本与 CUDA 不兼容 使用 nvidia-smi 查看支持的 CUDA 版本,安装对应版本的 Toolkit
安装失败,依赖错误 更新系统 sudo apt update && sudo apt upgrade

🔄 可选:安装特定版本 CUDA(如 11.8)

# 卸载当前 CUDA
sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*"

# 安装指定版本(以 11.8 为例)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.89-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.89-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-11-8

🧩 后续建议

  • 安装 cuDNN(深度学习库):需注册 NVIDIA 开发者账号下载。
  • 安装 PyTorch/TensorFlow:使用支持 CUDA 的版本,例如:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

📚 参考资料

  • NVIDIA CUDA 官方安装指南
  • 阿里云 GPU 云服务器文档

如果你提供具体的 实例规格、操作系统、CUDA 版本需求,我可以给出更精确的命令。

未经允许不得转载:CLOUD云枢 » 阿里云服务器怎么装cuda?