在阿里云GPU服务器上搭建深度学习环境,通常包括以下几个步骤:选择合适的实例、配置系统环境、安装必要的驱动和框架。以下是详细的搭建流程:
一、准备工作
-
注册并登录阿里云账号
- 访问 阿里云官网
- 完成实名认证并开通ECS服务。
-
购买GPU服务器实例
- 进入 ECS控制台 → 创建实例。
- 选择:
- 地域(建议选离你近的,如华北2)
- 实例规格:选择带有GPU的型号,例如:
ecs.gn6i-c4g1.xlarge(T4 GPU)ecs.gn6v-c8g1.8xlarge(V100 GPU)
- 镜像:建议选择 Ubuntu 20.04/22.04 64位 或 CentOS 7/8
- 存储:系统盘至少50GB,可挂载数据盘
- 网络与安全组:开放SSH(22端口),后续可开放Jupyter(8888)等端口
二、连接到服务器
使用SSH连接(以Mac/Linux为例):
ssh root@<你的公网IP>
# 或者使用密钥文件
ssh -i your-key.pem root@<公网IP>
三、更新系统并安装基础工具
# Ubuntu
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential vim wget git htop
# CentOS
sudo yum update -y
sudo yum groupinstall -y "Development Tools"
sudo yum install -y vim wget git htop
四、安装NVIDIA驱动
方法1:使用阿里云提供的自动安装脚本(推荐)
阿里云提供了自动化脚本安装驱动:
wget https://ecs-image-utils.oss-cn-hangzhou.aliyuncs.com/install_gpu_driver_auto.sh --no-check-certificate
chmod +x install_gpu_driver_auto.sh
sudo bash install_gpu_driver_auto.sh
✅ 该脚本会自动检测GPU型号并安装匹配的驱动。
方法2:手动安装(高级用户)
- 下载NVIDIA驱动(从NVIDIA官网或使用CUDA Toolkit自带)
- 禁用nouveau(仅Ubuntu/CentOS需要):
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
添加内容:
blacklist nouveau
options nouveau modeset=0
然后更新initramfs:
sudo update-initramfs -u # Ubuntu
# 或 CentOS:
sudo dracut --force
- 安装驱动:
chmod +x NVIDIA-Linux-x86_64-xxx.run
sudo ./NVIDIA-Linux-x86_64-xxx.run --dkms -s
验证驱动:
nvidia-smi
应显示GPU信息和驱动版本。
五、安装CUDA和cuDNN
推荐方式:通过NVIDIA官方仓库安装(Ubuntu)
# 添加CUDA仓库
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# 安装CUDA Toolkit(例如12.2)
sudo apt install -y cuda-toolkit-12-2
注意:CUDA版本需与PyTorch/TensorFlow兼容。
安装cuDNN:
- 登录 NVIDIA cuDNN官网,注册下载对应版本。
- 上传到服务器并解压安装,或将deb包安装。
或者使用阿里云镜像源提速安装。
六、安装深度学习框架(以PyTorch为例)
使用pip安装(推荐)
# 安装Python环境管理工具
sudo apt install -y python3-pip python3-venv
# 创建虚拟环境
python3 -m venv dl-env
source dl-env/bin/activate
# 升级pip
pip install --upgrade pip
# 安装PyTorch(根据CUDA版本选择命令)
# 查看CUDA版本:nvidia-smi顶部显示的CUDA版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
🔗 PyTorch安装命令参考:https://pytorch.org/get-started/locally/
验证PyTorch是否使用GPU:
import torch
print(torch.cuda.is_available()) # 应输出 True
print(torch.cuda.get_device_name(0)) # 显示GPU型号
七、安装其他常用工具
pip install jupyter notebook matplotlib numpy pandas scikit-learn tensorboard
启动Jupyter Notebook(远程访问):
jupyter notebook --generate-config
vim ~/.jupyter/jupyter_notebook_config.py
添加配置:
c.NotebookApp.ip = '0.0.0.0'
c.NotebookApp.port = 8888
c.NotebookApp.allow_remote_access = True
c.NotebookApp.open_browser = False
c.NotebookApp.token = 'your_password' # 设置密码或生成token
启动:
jupyter notebook --no-browser --port=8888
然后通过浏览器访问:http://<公网IP>:8888
⚠️ 安全起见,建议配合SSH隧道或配置SSL+密码保护。
八、(可选)使用Docker快速部署
阿里云支持使用Docker镜像快速搭建环境:
# 拉取NVIDIA官方PyTorch镜像
docker run --gpus all -it --rm -p 8888:8888 pytorch/pytorch:latest
# 启动Jupyter
jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root --NotebookApp.token=''
九、优化建议
- 使用 NAS 或 OSS 存储大量数据集。
- 配置 快照 定期备份系统盘。
- 使用 弹性公网IP 方便管理。
- 监控GPU使用:
nvidia-smi -l 1
常见问题排查
| 问题 | 解决方法 |
|---|---|
nvidia-smi 找不到命令 |
驱动未安装或未正确加载 |
| CUDA不可用 | 检查CUDA版本与PyTorch是否匹配 |
| Jupyter无法访问 | 检查安全组是否开放8888端口 |
| SSH连接超时 | 检查实例状态、安全组规则 |
总结
搭建流程总结:
- 购买GPU实例(Ubuntu/CentOS)
- SSH连接服务器
- 安装NVIDIA驱动(推荐自动脚本)
- 安装CUDA + cuDNN
- 配置Python虚拟环境
- 安装PyTorch/TensorFlow等框架
- 安装Jupyter等开发工具
- (可选)使用Docker简化部署
如需进一步自动化,可以编写 Shell脚本 或使用 Terraform + Ansible 实现一键部署。
如果你提供具体需求(如使用TensorFlow、是否用Docker、是否需要多卡训练),我可以给出更定制化的方案。
云小栈