在华为云服务器(如ECS弹性云服务器)上进行深度学习开发,需根据具体场景(训练/推理、GPU/CPU、框架选择等)安装相应依赖。以下是推荐的完整依赖清单及安装建议,以 Ubuntu 20.04/22.04(主流镜像)和 GPU 实例(如 p1/p2/c7 等搭载 NVIDIA GPU 的规格)为例:
✅ 一、基础系统环境
| 工具 | 说明 | 安装方式 |
|---|---|---|
| Ubuntu LTS 系统 | 推荐 Ubuntu 20.04 或 22.04(长期支持,兼容性好) | 华为云控制台创建实例时直接选择 |
| 常用工具 | vim, git, curl, wget, htop, tmux, unzip 等 |
sudo apt update && sudo apt install -y vim git curl wget htop tmux unzip |
✅ 二、GPU 驱动与 CUDA 生态(仅 GPU 实例必需)
⚠️ 注意:华为云已预装部分驱动(尤其使用 AI 提速型(p系列)或计算增强型(c7/c6)GPU 实例),但建议验证并按需升级。
| 组件 | 版本建议(与 PyTorch/TensorFlow 兼容) | 安装方式 |
|---|---|---|
| NVIDIA 驱动 | ≥ 525(适配 CUDA 12.x) ✅ 华为云推荐:使用 华为云官方驱动包 或 nvidia-smi 检查 |
bash<br># 查看是否已安装<br>nvidia-smi<br># 若未安装或版本过低:<br>sudo apt install -y nvidia-driver-535 # Ubuntu 22.04<br># 重启生效<br>sudo reboot<br> |
| CUDA Toolkit | 根据框架要求选择: • PyTorch 2.3+ → 推荐 CUDA 12.1 / 12.4 • TensorFlow 2.15+ → CUDA 12.2 ⚠️ 不必手动安装完整 CUDA(易冲突),优先用框架提供的 wheel 或 conda |
✅ 推荐方式: – 使用 conda(自动管理 CUDA toolkit)– 或安装 CUDA Toolkit 运行时库(cudnn-runtime): sudo apt install -y cuda-toolkit-12-4(需先配置华为云 CUDA APT 源) |
| cuDNN | 必须!提速深度学习算子 • PyTorch 2.3 + CUDA 12.1 → cuDNN 8.9.7 • TensorFlow 2.15 + CUDA 12.2 → cuDNN 8.9.7 |
✅ 最稳妥方式(华为云推荐): 下载对应版本 .deb 包(NVIDIA cuDNN 下载页)→ 上传服务器 → 安装:bash<br>sudo dpkg -i libcudnn8_8.9.7.29-1+cuda12.2_amd64.deb<br>sudo ldconfig<br>📌 华为云镜像站也提供提速源(配置后 apt install 更快) |
🔍 验证 GPU 环境:
nvidia-smi # 查看驱动 & GPU 状态 nvcc --version # 若安装了 CUDA 编译器(非必须,训练一般不需要编译) python -c "import torch; print(torch.cuda.is_available())" # PyTorch 测试
✅ 三、Python 环境(强烈推荐 Conda)
| 工具 | 说明 | 安装方式 |
|---|---|---|
| Miniconda3 | 轻量、隔离性强、完美管理 CUDA/cuDNN 依赖 | bash<br>wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh<br>bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3<br>$HOME/miniconda3/bin/conda init bash<br>source ~/.bashrc<br> |
| 虚拟环境 | 避免包冲突(必需!) | bash<br>conda create -n dl_env python=3.10<br>conda activate dl_env<br> |
✅ 四、深度学习框架(按需选择,推荐 pip/conda 安装)
| 框架 | 推荐安装命令(GPU 支持) | 备注 |
|---|---|---|
| PyTorch | bash<br># 官方推荐(自动匹配 CUDA):<br>pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121<br> | ✅ 替换 cu121 为 cu124(CUDA 12.4)等;华为云国内镜像提速: -i https://pypi.tuna.tsinghua.edu.cn/simple/ |
|
| TensorFlow | bash<br>pip install tensorflow[and-cuda] # TF 2.15+ 自动安装 CUDA/cuDNN<br># 或指定版本:<br>pip install tensorflow-cpu==2.15.0 # CPU版<br>pip install tensorflow-gpu==2.10.0 # 旧版(需手动配 CUDA 11.2)<br> |
⚠️ TF 2.15+ 是首个原生支持 CUDA 12 的版本 |
| MindSpore(华为自研,强烈推荐!) | bash<br># 华为云优化版(含昇腾/华为GPU/NVIDIA GPU 支持):<br>wget https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.3.0/Linux/x86_64/mindspore-2.3.0-cp310-cp310-linux_x86_64.whl<br>pip install mindspore-2.3.0-cp310-cp310-linux_x86_64.whl<br> |
✅ 原生适配华为云,支持自动混合精度、图算融合,性能优; 文档:https://www.mindspore.cn |
✅ 五、辅助工具(提升效率)
| 工具 | 用途 | 安装 |
|---|---|---|
| Jupyter Lab | 交互式开发 | pip install jupyterlab → jupyter lab --ip=0.0.0.0 --port=8888 --no-browser --allow-root |
| TensorBoard | 可视化训练过程 | pip install tensorboard |
| OpenCV | 图像处理 | pip install opencv-python-headless(无GUI服务器推荐) |
| Hugging Face Transformers / Datasets | NLP 快速开发 | pip install transformers datasets accelerate |
| Weights & Biases (W&B) | 实验追踪 | pip install wandb(需注册账号) |
| Docker(可选) | 环境容器化(适合生产部署) | sudo apt install docker.io && sudo usermod -aG docker $USER |
✅ 六、华为云专属优化(加分项 ✨)
| 服务 | 说明 |
|---|---|
| ModelArts | 华为云 AI 开发平台: • 无需手动搭环境,一键启动 Jupyter / 训练作业 / 自动学习 • 支持断点续训、超参调优、模型评估 ✅ 强烈推荐新手/项目交付使用: https://www.huaweicloud.com/product/modelarts.html |
| OBS 对象存储 | 替代本地磁盘存数据集/模型:pip install obscmd → obscmd put ./data obs://my-bucket/data/ |
| 华为云镜像源提速 | 提升 pip/conda/apt 下载速度:bash<br>conda config --add channels https://mirrors.huaweicloud.com/anaconda/pkgs/main/<br>pip config set global.index-url https://mirrors.huaweicloud.com/pypi/web/simple/<br> |
🚫 常见避坑提醒
- ❌ 不要
sudo pip install(权限混乱)→ 用conda或pip install --user - ❌ 不要混用
apt install python3-torch和pip install torch(版本冲突) - ❌ GPU 实例未装驱动 →
nvidia-smi报错 → 必须先装驱动再装 CUDA/cuDNN - ❌ TensorFlow 2.13 及更早版本不支持 CUDA 12 → 务必升级到 2.15+
- ✅ 所有操作完成后,务必运行测试脚本验证:
# test_gpu.py import torch print("CUDA available:", torch.cuda.is_available()) print("CUDA devices:", torch.cuda.device_count()) if torch.cuda.is_available(): print("Current device:", torch.cuda.get_device_name(0)) x = torch.randn(3, 3).cuda() print("GPU tensor OK:", x @ x)
✅ 一键脚本参考(Ubuntu + GPU 实例)
# 👉 复制粘贴执行(请先确认 CUDA/cuDNN 版本匹配)
#!/bin/bash
# 华为云深度学习环境快速部署脚本(GPU版)
# 1. 更新系统
sudo apt update && sudo apt upgrade -y
# 2. 安装基础工具
sudo apt install -y vim git curl wget htop tmux unzip
# 3. 安装 Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3
$HOME/miniconda3/bin/conda init bash
source ~/.bashrc
# 4. 创建环境
conda create -n dl_env python=3.10 -y
conda activate dl_env
# 5. 安装 PyTorch(CUDA 12.1)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple/
# 6. 安装常用库
pip install jupyterlab opencv-python-headless transformers datasets tensorboard
# 7. 验证
python -c "import torch; print('PyTorch + CUDA OK:', torch.cuda.is_available())"
如需我帮你:
- ✅ 根据你的具体华为云实例规格(如 c7.large.2 / p1.large)和 OS 镜像定制安装步骤
- ✅ 生成MindSpore 或 ModelArts 专项部署指南
- ✅ 配置远程 Jupyter Lab / VS Code 远程连接
- ✅ 写好Dockerfile 构建 GPU 训练镜像
欢迎随时告诉我你的详细需求,我可以为你生成完整可执行方案 👇
祝你在华为云上高效训练出惊艳模型!🚀
云小栈