使用阿里云服务器进行深度学习开发是一个非常常见的应用场景,尤其适合需要高性能计算资源(如GPU)的训练任务。以下是详细的步骤指南,帮助你从零开始在阿里云服务器上搭建深度学习环境。
一、准备工作
1. 注册阿里云账号
- 访问 阿里云官网
- 注册并完成实名认证(推荐企业认证,方便后续购买资源)
2. 创建ECS实例(弹性计算服务)
ECS是阿里云提供的虚拟机服务,你可以用它来部署深度学习环境。
步骤:
- 登录阿里云控制台 → 找到 ECS(云服务器)。
- 点击“创建实例”。
- 配置ECS实例:
| 配置项 | 推荐选择 |
|---|---|
| 实例类型 | GPU型(如gn5、gn6v等)用于深度学习训练 |
| 地域 | 选择离你较近的地区(如华北2-北京) |
| 操作系统 | Ubuntu Server 20.04/22.04 或 CentOS 7+(Ubuntu更常用) |
| 存储 | 至少40GB SSD系统盘,可加挂数据盘 |
| 安全组 | 开放SSH(22)、HTTP(80)、Jupyter Notebook端口(8888)等 |
| 登录方式 | 密钥对或密码(推荐密钥对,更安全) |
如果预算有限,也可以先使用CPU版本做开发测试,再升级为GPU实例。
二、连接服务器
方法:使用SSH连接ECS服务器
ssh root@你的公网IP地址
如果你使用的是密钥登录:
ssh -i /path/to/your/private_key username@公网IP
三、配置深度学习环境
1. 更新系统 & 安装基础依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip git build-essential cmake
2. 安装NVIDIA驱动(仅GPU实例)
sudo apt install nvidia-driver-535 # 可根据显卡型号调整
reboot now
重启后检查是否安装成功:
nvidia-smi
3. 安装CUDA和cuDNN(可选,也可通过Conda自动管理)
- 一般推荐使用 Anaconda/Miniconda 来管理环境,会自动处理CUDA和cuDNN版本问题。
4. 安装Anaconda/Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh
按提示安装完成后初始化,并重新加载bash配置:
source ~/.bashrc
四、创建Python虚拟环境并安装深度学习框架
示例:安装PyTorch
conda create -n dl_env python=3.9
conda activate dl_env
# 安装PyTorch(带CUDA支持)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
示例:安装TensorFlow
pip install tensorflow
验证是否可用GPU:
import torch
print(torch.cuda.is_available())
五、运行深度学习项目
1. 上传代码到服务器
可以使用 scp 或 Git 克隆项目:
git clone https://github.com/yourusername/yourproject.git
2. 运行训练脚本
cd yourproject
python train.py
六、远程访问与可视化(可选)
1. 安装Jupyter Notebook
pip install notebook
jupyter notebook --generate-config
修改配置文件:
nano ~/.jupyter/jupyter_notebook_config.py
设置如下内容:
c.NotebookApp.ip = '0.0.0.0'
c.NotebookApp.open_browser = False
c.NotebookApp.allow_remote_access = True
启动Jupyter:
jupyter notebook --port=8888
然后在浏览器中访问:
http://你的公网IP:8888
输入token即可使用。
七、数据存储建议
- 使用OSS(对象存储)保存大模型、数据集,ECS本地磁盘只保留临时缓存。
- 挂载NAS或CPFS作为共享存储,适用于多节点训练。
八、费用优化建议
- 使用 抢占式实例(Spot Instance)节省训练成本。
- 不使用时 停止实例,避免持续计费。
- 使用 弹性伸缩 和 自动关机脚本。
九、常见问题
| 问题 | 解决方案 |
|---|---|
nvidia-smi 命令找不到 |
没有安装NVIDIA驱动 |
| CUDA错误 | 检查PyTorch/TensorFlow是否匹配CUDA版本 |
| SSH连接不上 | 检查安全组规则是否开放22端口 |
| Jupyter无法访问 | 检查防火墙、安全组是否开放8888端口 |
十、进阶方向
- 使用阿里云 PAI平台(Platform of AI) 提供的深度学习训练服务。
- 使用 容器服务(ACK) 部署Kubernetes集群跑深度学习任务。
- 使用 AutoML 工具 快速建模。
如需具体某一步的详细操作(如安装CUDA、配置Jupyter远程访问等),欢迎继续提问,我可以提供详细命令和截图指导!
云计算