Ubuntu 24.04深度学习环境搭建完全可行
结论:Ubuntu 24.04 LTS(Noble Numbat)完全可以搭建深度学习环境,且是当前最推荐的Linux发行版之一。最新版本提供了更好的硬件支持、更稳定的系统基础,以及与主流深度学习框架的良好兼容性。
为什么选择Ubuntu 24.04搭建深度学习环境
- 长期支持(LTS):24.04是长期支持版本,提供5年更新支持,适合长期稳定的开发环境
- 硬件兼容性:原生支持最新NVIDIA显卡驱动,对AMD GPU和Intel提速器的支持也更完善
- 软件生态:主流深度学习框架(TensorFlow/PyTorch等)都优先支持Ubuntu系统
- 社区资源:遇到问题时解决方案丰富,各大AI框架文档都以Ubuntu为参考环境
环境搭建核心步骤
1. 系统准备
- 推荐全新安装:避免之前环境的影响
- 选择最小化安装:减少不必要的软件包
- 更新系统:
sudo apt update && sudo apt upgrade -y
2. 显卡驱动安装
-
NVIDIA用户:
- 官方推荐使用
ubuntu-drivers
工具自动安装:sudo ubuntu-drivers autoinstall
- 或从NVIDIA官网下载最新驱动
- 验证安装:
nvidia-smi
命令查看显卡状态
- 官方推荐使用
-
AMD用户:
- ROCm 5.x已提供对Ubuntu 24.04的官方支持
- 安装命令:
sudo apt install rocm-opencl-runtime
3. CUDA/cuDNN安装
-
CUDA Toolkit:
- 推荐使用NVIDIA提供的网络安装方式
- 选择与深度学习框架版本匹配的CUDA版本
-
cuDNN:
- 需要NVIDIA开发者账号下载
- 按照官方文档进行库文件部署
4. Python环境配置
- 推荐Miniconda:比Anaconda更轻量
- 安装命令:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && bash Miniconda3-latest-Linux-x86_64.sh
- 安装命令:
- 创建独立环境:
conda create -n dl python=3.10
5. 深度学习框架安装
-
TensorFlow:
- GPU版本:
pip install tensorflow[and-cuda]
- 验证:
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
- GPU版本:
-
PyTorch:
- 官网获取安装命令,如:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
- 验证:
python -c "import torch; print(torch.cuda.is_available())"
- 官网获取安装命令,如:
常见问题解决方案
-
显卡驱动问题:
- 如果遇到驱动冲突,可尝试
sudo apt purge nvidia*
后重新安装 - 确保Secure Boot已禁用
- 如果遇到驱动冲突,可尝试
-
CUDA版本冲突:
- 使用
conda
安装框架时,conda会自动解决依赖关系 - 或使用Docker容器隔离不同CUDA版本需求
- 使用
-
性能优化:
- 启用持久化模式:
sudo nvidia-smi -pm 1
- 调整GPU时钟:
nvidia-settings
工具
- 启用持久化模式:
最佳实践建议
- 使用Docker:对生产环境推荐使用NVIDIA官方提供的深度学习容器
- 环境隔离:每个项目使用独立的conda环境
- 自动化脚本:将安装过程写成脚本方便重现
- 定期备份:特别是
/home
目录和conda环境列表
总结:Ubuntu 24.04不仅能够搭建深度学习环境,而且由于其出色的稳定性和兼容性,已经成为AI研究者和开发者的首选操作系统。遵循上述步骤,您可以在1-2小时内完成从裸机到完整深度学习环境的搭建。