使用阿里云GPU运行深度学习任务可以分为以下几个步骤,从环境准备到任务部署:
1. 创建GPU实例
- 登录阿里云控制台
访问ECS控制台,选择“实例” > “创建实例”。 - 选择GPU机型
- 实例规格:选择含GPU的规格(如
ecs.gn6v-c8g1.2xlarge
,含1块NVIDIA V100显卡)。 - 镜像:推荐选择预装环境的镜像(如“Ubuntu 20.04 with NVIDIA Driver”或“PyTorch/TensorFlow镜像”),或从零开始安装。
- 实例规格:选择含GPU的规格(如
- 配置存储
根据数据大小选择云盘(建议SSD),深度学习的训练数据通常需要较大空间。 - 安全组设置
开放必要端口(如SSH的22端口、Jupyter Notebook的8888端口等)。
2. 连接实例
- SSH连接
ssh root@<实例公网IP>
若使用密钥登录,需通过
-i
指定密钥文件。
3. 配置GPU环境
如果镜像未预装驱动/CUDA:
-
安装NVIDIA驱动
sudo apt update sudo apt install -y nvidia-driver-470 # 根据GPU型号选择版本 reboot
验证驱动:
nvidia-smi
-
安装CUDA Toolkit
从NVIDIA官网选择版本(如CUDA 11.3):wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run sudo sh cuda_11.3.0_465.19.01_linux.run
添加环境变量:
echo 'export PATH=/usr/local/cuda-11.3/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc
-
安装cuDNN
下载cuDNN库(需NVIDIA账号),解压后复制到CUDA目录:tar -xzvf cudnn-11.3-linux-x64-v8.2.1.32.tgz sudo cp cuda/include/cudnn*.h /usr/local/cuda/include/ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
使用预装环境:
阿里云市场提供预装PyTorch/TensorFlow的镜像,可直接使用。
4. 安装深度学习框架
- PyTorch
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
- TensorFlow
pip install tensorflow-gpu
验证GPU是否可用:
import torch print(torch.cuda.is_available()) # PyTorch
或
import tensorflow as tf print(tf.config.list_physical_devices('GPU')) # TensorFlow
5. 上传数据和代码
- 通过SCP上传
scp -r /local/path/to/code root@<实例IP>:/root/code
- 使用OSS
若数据在阿里云OSS中,通过ossutil
工具下载:ossutil cp oss://bucket-name/data /root/data -r
6. 运行训练任务
- 直接运行Python脚本
python train.py
- 使用Jupyter Notebook
启动Jupyter并远程访问:jupyter notebook --ip=0.0.0.0 --no-browser --allow-root
通过
http://<实例IP>:8888
访问,输入生成的token。
7. 监控与优化
- GPU监控
watch -n 1 nvidia-smi # 实时查看GPU利用率
- 资源释放
训练完成后,及时停止或释放实例以避免额外费用。
8. 高级选项
- Docker环境
使用NVIDIA Docker运行容器化训练:docker run --gpus all -it pytorch/pytorch:latest
- 分布式训练
多GPU或多节点训练时,需配置框架的分布式模块(如PyTorch的DistributedDataParallel
)。
注意事项
- 费用控制:GPU实例按小时计费,建议设置费用报警。
- 数据备份:重要数据定期保存至OSS或快照。
- 版本兼容性:确保CUDA、框架、驱动版本匹配。
通过以上步骤,即可高效利用阿里云GPU进行深度学习任务。遇到问题时,可查阅阿里云文档或社区支持。