阿里云服务器怎么装cuda?

在阿里云服务器上安装 CUDA,主要适用于配备了 NVIDIA GPU 的实例(如 GN 系列,例如 gn6i、gn6v、gn7 等)。以下是详细步骤:


✅ 一、前提条件

  1. 选择支持 GPU 的实例类型
    例如:ecs.gn6i-c4g1.xlargeecs.gn6v-c8g1.8xlarge 等。

  2. 操作系统支持
    推荐使用 Ubuntu 18.04/20.04/22.04 或 CentOS 7/8。

  3. 确保已安装 NVIDIA 驱动(或准备安装)


✅ 二、安装步骤(以 Ubuntu 20.04 为例)

1. 更新系统并安装基础依赖

sudo apt update
sudo apt upgrade -y
sudo apt install -y build-essential

2. 安装 NVIDIA 驱动(如果尚未安装)

注意:阿里云部分镜像已自带驱动,可通过 nvidia-smi 检查。

nvidia-smi
  • 如果能正常显示 GPU 信息,说明驱动已安装,可跳过此步。
  • 如果提示命令未找到或报错,则需安装驱动。
手动安装 NVIDIA 驱动(推荐使用官方 .run 文件)
# 安装依赖
sudo apt install -y gcc make dkms

# 下载 NVIDIA 驱动(以最新稳定版为例)
wget https://us.download.nvidia.com/tesla/xxx/xxx.run  # 替换为实际驱动链接
# 可从 https://www.nvidia.com/Download/index.aspx 获取最新驱动

# 停止图形界面(如果是桌面版)
sudo telinit 3

# 赋予权限并安装
chmod +x xxx.run
sudo ./xxx.run -s  # -s 表示静默安装,避免问题

⚠️ 注意:云服务器一般无图形界面,可跳过 telinit


3. 安装 CUDA Toolkit

方法一:使用 NVIDIA 官方 .run 文件(推荐)
# 下载 CUDA Toolkit(以 CUDA 12.4 为例)
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.15_linux.run

# 安装(不安装驱动,因已安装)
sudo sh cuda_12.4.0_550.54.15_linux.run

在安装界面中:

  • 取消勾选 Driver(只安装 CUDA Toolkit、CUDA Samples、CUDA Documentation)
  • 其他保持默认(安装路径通常为 /usr/local/cuda-12.4
方法二:使用 APT 包管理器(Ubuntu)
# 添加 NVIDIA 仓库
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# 安装 CUDA Toolkit
sudo apt install -y cuda-toolkit-12-4

4. 配置环境变量

编辑 ~/.bashrc

nano ~/.bashrc

在末尾添加:

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

保存后生效:

source ~/.bashrc

5. 验证安装

nvcc --version

输出应包含 CUDA 编译器版本信息。

运行 nvidia-smi 查看驱动和 GPU 状态。


6. (可选)测试 CUDA 示例

进入 CUDA 示例目录并编译:

cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery

如果输出中 Result = PASS,说明 CUDA 安装成功。


✅ 三、常见问题

问题 解决方法
nvidia-smi: command not found 未安装驱动,需先安装 NVIDIA 驱动
nvcc not found 未配置环境变量或未安装 CUDA Toolkit
安装驱动时报错 NVIDIA driver appears to be in use 重启实例后重试,或确保无 X Server 运行
与内核版本不兼容 使用 dkms 安装或升级内核匹配驱动

✅ 四、阿里云镜像建议

阿里云提供预装 GPU 驱动和 CUDA 的公共镜像:

  1. 登录 ECS 控制台
  2. 创建实例时选择:
    • 镜像类型:公共镜像
    • 操作系统:Ubuntu 或 CentOS
    • 勾选“GPU 驱动”或选择“AI 镜像”
  3. 或搜索镜像名称含 cuda 的自定义镜像(如 Ubuntu 20.04 with CUDA 11.8

使用预装镜像可省去手动安装步骤。


✅ 五、参考链接

  • NVIDIA CUDA 下载
  • 阿里云 GPU 实例文档

如有具体实例规格或操作系统,可提供更精确的安装指导。

未经允许不得转载:云知道CLOUD » 阿里云服务器怎么装cuda?