在阿里云服务器上安装 CUDA,主要适用于配备了 NVIDIA GPU 的实例(如 GN 系列,例如 gn6i、gn6v、gn7 等)。以下是详细步骤:
✅ 一、前提条件
-
选择支持 GPU 的实例类型
例如:ecs.gn6i-c4g1.xlarge、ecs.gn6v-c8g1.8xlarge等。 -
操作系统支持
推荐使用 Ubuntu 18.04/20.04/22.04 或 CentOS 7/8。 -
确保已安装 NVIDIA 驱动(或准备安装)
✅ 二、安装步骤(以 Ubuntu 20.04 为例)
1. 更新系统并安装基础依赖
sudo apt update
sudo apt upgrade -y
sudo apt install -y build-essential
2. 安装 NVIDIA 驱动(如果尚未安装)
注意:阿里云部分镜像已自带驱动,可通过
nvidia-smi检查。
nvidia-smi
- 如果能正常显示 GPU 信息,说明驱动已安装,可跳过此步。
- 如果提示命令未找到或报错,则需安装驱动。
手动安装 NVIDIA 驱动(推荐使用官方 .run 文件)
# 安装依赖
sudo apt install -y gcc make dkms
# 下载 NVIDIA 驱动(以最新稳定版为例)
wget https://us.download.nvidia.com/tesla/xxx/xxx.run # 替换为实际驱动链接
# 可从 https://www.nvidia.com/Download/index.aspx 获取最新驱动
# 停止图形界面(如果是桌面版)
sudo telinit 3
# 赋予权限并安装
chmod +x xxx.run
sudo ./xxx.run -s # -s 表示静默安装,避免问题
⚠️ 注意:云服务器一般无图形界面,可跳过
telinit。
3. 安装 CUDA Toolkit
方法一:使用 NVIDIA 官方 .run 文件(推荐)
# 下载 CUDA Toolkit(以 CUDA 12.4 为例)
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.15_linux.run
# 安装(不安装驱动,因已安装)
sudo sh cuda_12.4.0_550.54.15_linux.run
在安装界面中:
- 取消勾选 Driver(只安装 CUDA Toolkit、CUDA Samples、CUDA Documentation)
- 其他保持默认(安装路径通常为
/usr/local/cuda-12.4)
方法二:使用 APT 包管理器(Ubuntu)
# 添加 NVIDIA 仓库
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# 安装 CUDA Toolkit
sudo apt install -y cuda-toolkit-12-4
4. 配置环境变量
编辑 ~/.bashrc:
nano ~/.bashrc
在末尾添加:
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
保存后生效:
source ~/.bashrc
5. 验证安装
nvcc --version
输出应包含 CUDA 编译器版本信息。
运行 nvidia-smi 查看驱动和 GPU 状态。
6. (可选)测试 CUDA 示例
进入 CUDA 示例目录并编译:
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
如果输出中 Result = PASS,说明 CUDA 安装成功。
✅ 三、常见问题
| 问题 | 解决方法 |
|---|---|
nvidia-smi: command not found |
未安装驱动,需先安装 NVIDIA 驱动 |
nvcc not found |
未配置环境变量或未安装 CUDA Toolkit |
安装驱动时报错 NVIDIA driver appears to be in use |
重启实例后重试,或确保无 X Server 运行 |
| 与内核版本不兼容 | 使用 dkms 安装或升级内核匹配驱动 |
✅ 四、阿里云镜像建议
阿里云提供预装 GPU 驱动和 CUDA 的公共镜像:
- 登录 ECS 控制台
- 创建实例时选择:
- 镜像类型:公共镜像
- 操作系统:Ubuntu 或 CentOS
- 勾选“GPU 驱动”或选择“AI 镜像”
- 或搜索镜像名称含
cuda的自定义镜像(如Ubuntu 20.04 with CUDA 11.8)
使用预装镜像可省去手动安装步骤。
✅ 五、参考链接
- NVIDIA CUDA 下载
- 阿里云 GPU 实例文档
如有具体实例规格或操作系统,可提供更精确的安装指导。
云知道CLOUD