如何使用阿里云gpu跑深度学习？-CLOUD云枢

使用阿里云GPU运行深度学习任务可以分为以下几个步骤，从环境准备到任务部署：

1. 创建GPU实例

登录阿里云控制台
访问ECS控制台，选择“实例” > “创建实例”。
选择GPU机型
- 实例规格：选择含GPU的规格（如ecs.gn6v-c8g1.2xlarge，含1块NVIDIA V100显卡）。
- 镜像：推荐选择预装环境的镜像（如“Ubuntu 20.04 with NVIDIA Driver”或“PyTorch/TensorFlow镜像”），或从零开始安装。
配置存储
根据数据大小选择云盘（建议SSD），深度学习的训练数据通常需要较大空间。
安全组设置
开放必要端口（如SSH的22端口、Jupyter Notebook的8888端口等）。

2. 连接实例

SSH连接
```
ssh root@<实例公网IP>
```
若使用密钥登录，需通过-i指定密钥文件。

3. 配置GPU环境

如果镜像未预装驱动/CUDA：

安装NVIDIA驱动

sudo apt update
sudo apt install -y nvidia-driver-470  # 根据GPU型号选择版本
reboot

验证驱动：

nvidia-smi

安装CUDA Toolkit
从NVIDIA官网选择版本（如CUDA 11.3）：

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run

添加环境变量：

echo 'export PATH=/usr/local/cuda-11.3/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

安装cuDNN
下载cuDNN库（需NVIDIA账号），解压后复制到CUDA目录：

tar -xzvf cudnn-11.3-linux-x64-v8.2.1.32.tgz
sudo cp cuda/include/cudnn*.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/

使用预装环境：

阿里云市场提供预装PyTorch/TensorFlow的镜像，可直接使用。

4. 安装深度学习框架

PyTorch

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

TensorFlow

pip install tensorflow-gpu

验证GPU是否可用：

import torch
print(torch.cuda.is_available())  # PyTorch

或

import tensorflow as tf
print(tf.config.list_physical_devices('GPU'))  # TensorFlow

5. 上传数据和代码

通过SCP上传

scp -r /local/path/to/code root@<实例IP>:/root/code

使用OSS
若数据在阿里云OSS中，通过ossutil工具下载：
```
ossutil cp oss://bucket-name/data /root/data -r
```

6. 运行训练任务

直接运行Python脚本
```
python train.py
```
使用Jupyter Notebook
启动Jupyter并远程访问：
```
jupyter notebook --ip=0.0.0.0 --no-browser --allow-root
```
通过http://<实例IP>:8888访问，输入生成的token。

7. 监控与优化

GPU监控

watch -n 1 nvidia-smi  # 实时查看GPU利用率

资源释放
训练完成后，及时停止或释放实例以避免额外费用。

8. 高级选项

Docker环境
使用NVIDIA Docker运行容器化训练：
```
docker run --gpus all -it pytorch/pytorch:latest
```
分布式训练
多GPU或多节点训练时，需配置框架的分布式模块（如PyTorch的DistributedDataParallel）。

注意事项

费用控制：GPU实例按小时计费，建议设置费用报警。
数据备份：重要数据定期保存至OSS或快照。
版本兼容性：确保CUDA、框架、驱动版本匹配。

通过以上步骤，即可高效利用阿里云GPU进行深度学习任务。遇到问题时，可查阅阿里云文档或社区支持。