使用华为云服务器进行深度学习需要安装哪些依赖工具？-云小栈

在华为云服务器（如ECS弹性云服务器）上进行深度学习开发，需根据具体场景（训练/推理、GPU/CPU、框架选择等）安装相应依赖。以下是推荐的完整依赖清单及安装建议，以 Ubuntu 20.04/22.04（主流镜像）和 GPU 实例（如 p1/p2/c7 等搭载 NVIDIA GPU 的规格）为例：

✅ 一、基础系统环境

工具	说明	安装方式
Ubuntu LTS 系统	推荐 Ubuntu 20.04 或 22.04（长期支持，兼容性好）	华为云控制台创建实例时直接选择
常用工具	`vim`, `git`, `curl`, `wget`, `htop`, `tmux`, `unzip` 等	`sudo apt update && sudo apt install -y vim git curl wget htop tmux unzip`

✅ 二、GPU 驱动与 CUDA 生态（仅 GPU 实例必需）

⚠️ 注意：华为云已预装部分驱动（尤其使用 AI 提速型（p系列）或计算增强型（c7/c6）GPU 实例），但建议验证并按需升级。

组件	版本建议（与 PyTorch/TensorFlow 兼容）	安装方式
NVIDIA 驱动	≥ 525（适配 CUDA 12.x） ✅ 华为云推荐：使用华为云官方驱动包或 `nvidia-smi` 检查	`bash<br># 查看是否已安装<br>nvidia-smi<br># 若未安装或版本过低：<br>sudo apt install -y nvidia-driver-535 # Ubuntu 22.04<br># 重启生效<br>sudo reboot<br>`
CUDA Toolkit	根据框架要求选择： • PyTorch 2.3+ → 推荐 CUDA 12.1 / 12.4 • TensorFlow 2.15+ → CUDA 12.2 ⚠️ 不必手动安装完整 CUDA（易冲突），优先用框架提供的 wheel 或 conda	✅ 推荐方式： – 使用 `conda`（自动管理 CUDA toolkit） – 或安装 CUDA Toolkit 运行时库（cudnn-runtime）： `sudo apt install -y cuda-toolkit-12-4`（需先配置华为云 CUDA APT 源）
cuDNN	必须！提速深度学习算子 • PyTorch 2.3 + CUDA 12.1 → cuDNN 8.9.7 • TensorFlow 2.15 + CUDA 12.2 → cuDNN 8.9.7	✅ 最稳妥方式（华为云推荐）：下载对应版本 `.deb` 包（NVIDIA cuDNN 下载页）→ 上传服务器 → 安装： `bash<br>sudo dpkg -i libcudnn8_8.9.7.29-1+cuda12.2_amd64.deb<br>sudo ldconfig<br>` 📌 华为云镜像站也提供提速源（配置后 `apt install` 更快）

🔍 验证 GPU 环境：

nvidia-smi                    # 查看驱动 & GPU 状态
nvcc --version                # 若安装了 CUDA 编译器（非必须，训练一般不需要编译）
python -c "import torch; print(torch.cuda.is_available())"  # PyTorch 测试

✅ 三、Python 环境（强烈推荐 Conda）

工具	说明	安装方式
Miniconda3	轻量、隔离性强、完美管理 CUDA/cuDNN 依赖	`bash<br>wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh<br>bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3<br>$HOME/miniconda3/bin/conda init bash<br>source ~/.bashrc<br>`
虚拟环境	避免包冲突（必需！）	`bash<br>conda create -n dl_env python=3.10<br>conda activate dl_env<br>`

✅ 四、深度学习框架（按需选择，推荐 pip/conda 安装）

框架	推荐安装命令（GPU 支持）	备注
PyTorch	`bash<br># 官方推荐（自动匹配 CUDA）：<br>pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121<br>` \| ✅ 替换 `cu121` 为 `cu124`（CUDA 12.4）等；华为云国内镜像提速：`-i https://pypi.tuna.tsinghua.edu.cn/simple/`
TensorFlow	`bash<br>pip install tensorflow[and-cuda] # TF 2.15+ 自动安装 CUDA/cuDNN<br># 或指定版本：<br>pip install tensorflow-cpu==2.15.0 # CPU版<br>pip install tensorflow-gpu==2.10.0 # 旧版（需手动配 CUDA 11.2）<br>`	⚠️ TF 2.15+ 是首个原生支持 CUDA 12 的版本
MindSpore（华为自研，强烈推荐！）	`bash<br># 华为云优化版（含昇腾/华为GPU/NVIDIA GPU 支持）：<br>wget https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.3.0/Linux/x86_64/mindspore-2.3.0-cp310-cp310-linux_x86_64.whl<br>pip install mindspore-2.3.0-cp310-cp310-linux_x86_64.whl<br>`	✅ 原生适配华为云，支持自动混合精度、图算融合，性能优；文档：https://www.mindspore.cn

✅ 五、辅助工具（提升效率）

工具	用途	安装
Jupyter Lab	交互式开发	`pip install jupyterlab` → `jupyter lab --ip=0.0.0.0 --port=8888 --no-browser --allow-root`
TensorBoard	可视化训练过程	`pip install tensorboard`
OpenCV	图像处理	`pip install opencv-python-headless`（无GUI服务器推荐）
Hugging Face Transformers / Datasets	NLP 快速开发	`pip install transformers datasets accelerate`
Weights & Biases (W&B)	实验追踪	`pip install wandb`（需注册账号）
Docker（可选）	环境容器化（适合生产部署）	`sudo apt install docker.io && sudo usermod -aG docker $USER`

✅ 六、华为云专属优化（加分项 ✨）

服务	说明
ModelArts	华为云 AI 开发平台： • 无需手动搭环境，一键启动 Jupyter / 训练作业 / 自动学习 • 支持断点续训、超参调优、模型评估 ✅ 强烈推荐新手/项目交付使用： https://www.huaweicloud.com/product/modelarts.html
OBS 对象存储	替代本地磁盘存数据集/模型： `pip install obscmd` → `obscmd put ./data obs://my-bucket/data/`
华为云镜像源提速	提升 pip/conda/apt 下载速度： `bash<br>conda config --add channels https://mirrors.huaweicloud.com/anaconda/pkgs/main/<br>pip config set global.index-url https://mirrors.huaweicloud.com/pypi/web/simple/<br>`

🚫 常见避坑提醒

❌ 不要 sudo pip install（权限混乱）→ 用 conda 或 pip install --user
❌ 不要混用 apt install python3-torch 和 pip install torch（版本冲突）
❌ GPU 实例未装驱动 → nvidia-smi 报错 → 必须先装驱动再装 CUDA/cuDNN
❌ TensorFlow 2.13 及更早版本不支持 CUDA 12 → 务必升级到 2.15+

✅ 所有操作完成后，务必运行测试脚本验证：

# test_gpu.py
import torch
print("CUDA available:", torch.cuda.is_available())
print("CUDA devices:", torch.cuda.device_count())
if torch.cuda.is_available():
  print("Current device:", torch.cuda.get_device_name(0))
  x = torch.randn(3, 3).cuda()
  print("GPU tensor OK:", x @ x)

✅ 一键脚本参考（Ubuntu + GPU 实例）

# 👉 复制粘贴执行（请先确认 CUDA/cuDNN 版本匹配）
#!/bin/bash
# 华为云深度学习环境快速部署脚本（GPU版）

# 1. 更新系统
sudo apt update && sudo apt upgrade -y

# 2. 安装基础工具
sudo apt install -y vim git curl wget htop tmux unzip

# 3. 安装 Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3
$HOME/miniconda3/bin/conda init bash
source ~/.bashrc

# 4. 创建环境
conda create -n dl_env python=3.10 -y
conda activate dl_env

# 5. 安装 PyTorch（CUDA 12.1）
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple/

# 6. 安装常用库
pip install jupyterlab opencv-python-headless transformers datasets tensorboard

# 7. 验证
python -c "import torch; print('PyTorch + CUDA OK:', torch.cuda.is_available())"

如需我帮你：

✅ 根据你的具体华为云实例规格（如 c7.large.2 / p1.large）和 OS 镜像定制安装步骤
✅ 生成MindSpore 或 ModelArts 专项部署指南
✅ 配置远程 Jupyter Lab / VS Code 远程连接
✅ 写好Dockerfile 构建 GPU 训练镜像

欢迎随时告诉我你的详细需求，我可以为你生成完整可执行方案 👇

祝你在华为云上高效训练出惊艳模型！🚀