加油
努力

使用华为云服务器进行深度学习需要安装哪些依赖工具?

在华为云服务器(如ECS弹性云服务器)上进行深度学习开发,需根据具体场景(训练/推理、GPU/CPU、框架选择等)安装相应依赖。以下是推荐的完整依赖清单及安装建议,以 Ubuntu 20.04/22.04(主流镜像)和 GPU 实例(如 p1/p2/c7 等搭载 NVIDIA GPU 的规格)为例:


✅ 一、基础系统环境

工具 说明 安装方式
Ubuntu LTS 系统 推荐 Ubuntu 20.04 或 22.04(长期支持,兼容性好) 华为云控制台创建实例时直接选择
常用工具 vim, git, curl, wget, htop, tmux, unzip sudo apt update && sudo apt install -y vim git curl wget htop tmux unzip

✅ 二、GPU 驱动与 CUDA 生态(仅 GPU 实例必需)

⚠️ 注意:华为云已预装部分驱动(尤其使用 AI 提速型(p系列)或计算增强型(c7/c6)GPU 实例),但建议验证并按需升级。

组件 版本建议(与 PyTorch/TensorFlow 兼容) 安装方式
NVIDIA 驱动 ≥ 525(适配 CUDA 12.x)
✅ 华为云推荐:使用 华为云官方驱动包 或 nvidia-smi 检查
bash<br># 查看是否已安装<br>nvidia-smi<br># 若未安装或版本过低:<br>sudo apt install -y nvidia-driver-535 # Ubuntu 22.04<br># 重启生效<br>sudo reboot<br>
CUDA Toolkit 根据框架要求选择:
• PyTorch 2.3+ → 推荐 CUDA 12.1 / 12.4
• TensorFlow 2.15+ → CUDA 12.2
⚠️ 不必手动安装完整 CUDA(易冲突),优先用框架提供的 wheel 或 conda
推荐方式
– 使用 conda(自动管理 CUDA toolkit)
– 或安装 CUDA Toolkit 运行时库(cudnn-runtime)
sudo apt install -y cuda-toolkit-12-4(需先配置华为云 CUDA APT 源)
cuDNN 必须!提速深度学习算子
• PyTorch 2.3 + CUDA 12.1 → cuDNN 8.9.7
• TensorFlow 2.15 + CUDA 12.2 → cuDNN 8.9.7
最稳妥方式(华为云推荐)
下载对应版本 .deb 包(NVIDIA cuDNN 下载页)→ 上传服务器 → 安装:
bash<br>sudo dpkg -i libcudnn8_8.9.7.29-1+cuda12.2_amd64.deb<br>sudo ldconfig<br>
📌 华为云镜像站也提供提速源(配置后 apt install 更快)

🔍 验证 GPU 环境:

nvidia-smi                    # 查看驱动 & GPU 状态
nvcc --version                # 若安装了 CUDA 编译器(非必须,训练一般不需要编译)
python -c "import torch; print(torch.cuda.is_available())"  # PyTorch 测试

✅ 三、Python 环境(强烈推荐 Conda)

工具 说明 安装方式
Miniconda3 轻量、隔离性强、完美管理 CUDA/cuDNN 依赖 bash<br>wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh<br>bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3<br>$HOME/miniconda3/bin/conda init bash<br>source ~/.bashrc<br>
虚拟环境 避免包冲突(必需!) bash<br>conda create -n dl_env python=3.10<br>conda activate dl_env<br>

✅ 四、深度学习框架(按需选择,推荐 pip/conda 安装)

框架 推荐安装命令(GPU 支持) 备注
PyTorch bash<br># 官方推荐(自动匹配 CUDA):<br>pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121<br> | ✅ 替换 cu121cu124(CUDA 12.4)等;
华为云国内镜像提速:-i https://pypi.tuna.tsinghua.edu.cn/simple/
TensorFlow bash<br>pip install tensorflow[and-cuda] # TF 2.15+ 自动安装 CUDA/cuDNN<br># 或指定版本:<br>pip install tensorflow-cpu==2.15.0 # CPU版<br>pip install tensorflow-gpu==2.10.0 # 旧版(需手动配 CUDA 11.2)<br> ⚠️ TF 2.15+ 是首个原生支持 CUDA 12 的版本
MindSpore(华为自研,强烈推荐!) bash<br># 华为云优化版(含昇腾/华为GPU/NVIDIA GPU 支持):<br>wget https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.3.0/Linux/x86_64/mindspore-2.3.0-cp310-cp310-linux_x86_64.whl<br>pip install mindspore-2.3.0-cp310-cp310-linux_x86_64.whl<br> ✅ 原生适配华为云,支持自动混合精度、图算融合,性能优;
文档:https://www.mindspore.cn

✅ 五、辅助工具(提升效率)

工具 用途 安装
Jupyter Lab 交互式开发 pip install jupyterlabjupyter lab --ip=0.0.0.0 --port=8888 --no-browser --allow-root
TensorBoard 可视化训练过程 pip install tensorboard
OpenCV 图像处理 pip install opencv-python-headless(无GUI服务器推荐)
Hugging Face Transformers / Datasets NLP 快速开发 pip install transformers datasets accelerate
Weights & Biases (W&B) 实验追踪 pip install wandb(需注册账号)
Docker(可选) 环境容器化(适合生产部署) sudo apt install docker.io && sudo usermod -aG docker $USER

✅ 六、华为云专属优化(加分项 ✨)

服务 说明
ModelArts 华为云 AI 开发平台:
• 无需手动搭环境,一键启动 Jupyter / 训练作业 / 自动学习
• 支持断点续训、超参调优、模型评估
✅ 强烈推荐新手/项目交付使用:
https://www.huaweicloud.com/product/modelarts.html
OBS 对象存储 替代本地磁盘存数据集/模型:
pip install obscmdobscmd put ./data obs://my-bucket/data/
华为云镜像源提速 提升 pip/conda/apt 下载速度:
bash<br>conda config --add channels https://mirrors.huaweicloud.com/anaconda/pkgs/main/<br>pip config set global.index-url https://mirrors.huaweicloud.com/pypi/web/simple/<br>

🚫 常见避坑提醒

  • ❌ 不要 sudo pip install(权限混乱)→ 用 condapip install --user
  • ❌ 不要混用 apt install python3-torchpip install torch(版本冲突)
  • ❌ GPU 实例未装驱动 → nvidia-smi 报错 → 必须先装驱动再装 CUDA/cuDNN
  • ❌ TensorFlow 2.13 及更早版本不支持 CUDA 12 → 务必升级到 2.15+
  • ✅ 所有操作完成后,务必运行测试脚本验证:
    # test_gpu.py
    import torch
    print("CUDA available:", torch.cuda.is_available())
    print("CUDA devices:", torch.cuda.device_count())
    if torch.cuda.is_available():
      print("Current device:", torch.cuda.get_device_name(0))
      x = torch.randn(3, 3).cuda()
      print("GPU tensor OK:", x @ x)

✅ 一键脚本参考(Ubuntu + GPU 实例)

# 👉 复制粘贴执行(请先确认 CUDA/cuDNN 版本匹配)
#!/bin/bash
# 华为云深度学习环境快速部署脚本(GPU版)

# 1. 更新系统
sudo apt update && sudo apt upgrade -y

# 2. 安装基础工具
sudo apt install -y vim git curl wget htop tmux unzip

# 3. 安装 Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3
$HOME/miniconda3/bin/conda init bash
source ~/.bashrc

# 4. 创建环境
conda create -n dl_env python=3.10 -y
conda activate dl_env

# 5. 安装 PyTorch(CUDA 12.1)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple/

# 6. 安装常用库
pip install jupyterlab opencv-python-headless transformers datasets tensorboard

# 7. 验证
python -c "import torch; print('PyTorch + CUDA OK:', torch.cuda.is_available())"

如需我帮你:

  • ✅ 根据你的具体华为云实例规格(如 c7.large.2 / p1.large)和 OS 镜像定制安装步骤
  • ✅ 生成MindSpore 或 ModelArts 专项部署指南
  • ✅ 配置远程 Jupyter Lab / VS Code 远程连接
  • ✅ 写好Dockerfile 构建 GPU 训练镜像

欢迎随时告诉我你的详细需求,我可以为你生成完整可执行方案 👇

祝你在华为云上高效训练出惊艳模型!🚀

云服务器