在阿里云ECS实例上安装 PyTorch,需要根据你的使用场景(CPU训练/推理、GPU提速训练等)选择合适的配置。以下是推荐的配置要求和建议:
一、基础系统要求
-
操作系统:
- 推荐:Ubuntu 20.04 / 22.04 LTS 或 CentOS 7/8
- 其他支持的 Linux 发行版也可,但 Ubuntu 社区支持更完善。
-
Python 版本:
- PyTorch 官方推荐 Python 3.8 ~ 3.11
- 建议使用
conda或pyenv管理虚拟环境。
-
包管理工具:
- 推荐使用
pip或conda(Anaconda/Miniconda)
- 推荐使用
二、CPU 模式运行(无 GPU)
适用于轻量级模型推理或学习测试:
- 实例类型:通用型(如 ecs.g6.large)
- vCPU:至少 2 核
- 内存:至少 4GB,推荐 8GB 以上(尤其加载大模型时)
- 系统盘:≥ 40GB(SSD 更佳)
- 网络带宽:1 Mbps 以上(用于下载依赖)
✅ 适合:PyTorch 基础学习、小模型训练/推理(如文本分类、MNIST)
三、GPU 模式运行(推荐用于深度学习训练)
若需使用 CUDA 提速,必须选择支持 GPU 的实例类型。
1. 实例类型(推荐阿里云 GPU 实例):
| 实例规格 | GPU 类型 | 显存 | 适用场景 |
|---|---|---|---|
ecs.gn6i-c4g1.xlarge |
T4(16GB) | 16GB | 中小模型训练、推理 |
ecs.gn6v-c8g1.8xlarge |
V100(32GB) | 32GB | 大模型训练(如 BERT、ResNet) |
ecs.gn7-c16g1.8xlarge |
A10(24GB) | 24GB | 高性价比训练与推理 |
📌 查看最新实例:阿里云 GPU 实例列表
2. 必要软件依赖:
- NVIDIA 驱动:需安装与 GPU 型号匹配的驱动
- CUDA Toolkit:PyTorch 对应版本所需的 CUDA(如 11.8、12.1)
- cuDNN:深度神经网络提速库(通常随 CUDA 安装)
- NVIDIA Container Toolkit(可选,使用 Docker 时)
⚠️ 注意:阿里云部分 GPU 镜像已预装驱动,建议选择「AI 镜像」或「GPU 驱动镜像」
四、PyTorch 安装方式(以 Ubuntu + GPU 为例)
# 1. 更新系统
sudo apt update && sudo apt upgrade -y
# 2. 安装 Miniconda(推荐)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc
# 3. 创建虚拟环境
conda create -n pytorch python=3.9
conda activate pytorch
# 4. 安装 PyTorch(以 CUDA 11.8 为例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或使用 conda(更稳定)
# conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
五、验证 GPU 是否可用
import torch
print(torch.__version__)
print("CUDA available:", torch.cuda.is_available())
print("GPU count:", torch.cuda.device_count())
print("Current GPU:", torch.cuda.get_device_name(0))
预期输出:
CUDA available: True
GPU count: 1
Current GPU: Tesla T4
六、其他建议
-
使用 AI 镜像:
- 阿里云提供预装 PyTorch/TensorFlow 的 AI 平台镜像,可节省配置时间。
- 路径:ECS 控制台 → 镜像 → 公共镜像 → 搜索 “AI” 或 “深度学习”
-
存储建议:
- 使用 ESSD 云盘挂载为数据盘,用于存放数据集和模型。
-
安全组配置:
- 若使用 Jupyter Notebook,开放 8888 端口并设置密码。
-
成本优化:
- 训练任务可使用抢占式实例(价格低,但可能被回收)
- 非高峰时段使用节省计划或预留实例。
总结:推荐配置组合
| 场景 | 推荐实例 | 内存 | 系统盘 | 是否需 GPU |
|---|---|---|---|---|
| 学习/小模型推理 | ecs.g6.large | 8GB | 40GB SSD | 否 |
| 中等模型训练 | ecs.gn6i-c4g1.xlarge (T4) | 16GB | 100GB ESSD | 是 |
| 大模型训练 | ecs.gn6v-c8g1.8xlarge (V100) | 64GB+ | 200GB+ ESSD | 是 |
如有特定模型(如 Llama、Stable Diffusion),可进一步优化配置。欢迎补充需求,我可以给出更具体的建议。
云小栈