在 Ubuntu 服务器上安装 CUDA 11.0 和 cuDNN 的详细教程如下。本教程涵盖了从环境准备到安装和验证的完整流程,适用于初学者。
一、环境准备
1. 系统要求
- 操作系统:Ubuntu 18.04 或 20.04
- GPU:NVIDIA GPU,支持 CUDA 11.0(如 Tesla、GeForce RTX 系列等)
- 权限:需要 sudo 权限
- 驱动程序:NVIDIA 驱动需支持 CUDA 11.0
2. 卸载旧版本(如有)
清理可能存在的旧版本 CUDA 和 NVIDIA 驱动:
sudo apt-get --purge remove "*nvidia*"
sudo apt-get autoremove
sudo apt-get autoclean
二、安装 NVIDIA 驱动
1. 检查 GPU 支持情况
使用 lspci
或 nvidia-smi
确认是否已安装支持的 GPU:
lspci | grep -i nvidia
如果 nvidia-smi
已输出驱动信息,则 NVIDIA 驱动已安装,可以跳过驱动安装部分。
2. 安装 NVIDIA 驱动
安装合适的 NVIDIA 驱动:
sudo apt update
sudo apt install -y nvidia-driver-450
说明:
nvidia-driver-450
是支持 CUDA 11.0 的推荐驱动版本。
重启服务器以使驱动生效:
sudo reboot
验证驱动是否正常:
nvidia-smi
三、安装 CUDA 11.0
1. 下载 CUDA Toolkit 11.0
访问 NVIDIA CUDA Toolkit Archive,选择 CUDA Toolkit 11.0,并下载对应的 Debian 文件。
直接下载命令:
wget https://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
2. 安装 CUDA
- 添加 CUDA 本地仓库:
sudo dpkg -i cuda-repo-ubuntu2004-11-0-local_11.0.3-450.51.06-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu2004-11-0-local/7fa2af80.pub
2. 更新并安装 CUDA:
sudo apt update
sudo apt install -y cuda
3. 配置环境变量
将 CUDA 的路径添加到系统变量:
echo 'export PATH=/usr/local/cuda-11.0/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.0/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
4. 验证 CUDA 安装
运行以下命令查看 CUDA 版本:
nvcc --version
输出示例:
Cuda compilation tools, release 11.0, V11.0.221
四、安装 cuDNN
1. 下载 cuDNN
访问 NVIDIA cuDNN 下载页面,选择与 CUDA 11.0 兼容的版本(如 cuDNN 8.x)。
需要登录 NVIDIA 开发者账户后下载。
直接下载(假设文件名为 cudnn-11.0-linux-x64-v8.0.4.30.tgz
):
wget https://developer.download.nvidia.com/compute/machine-learning/cudnn/secure/8.0.4/11.0_20200826/cudnn-11.0-linux-x64-v8.0.4.30.tgz
2. 解压并安装 cuDNN
- 解压文件:
tar -xzvf cudnn-11.0-linux-x64-v8.0.4.30.tgz
2. 将库文件复制到 CUDA 的目录:
sudo cp cuda/include/cudnn*.h /usr/local/cuda-11.0/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.0/lib64/
sudo chmod a+r /usr/local/cuda-11.0/include/cudnn*.h /usr/local/cuda-11.0/lib64/libcudnn*
3. 验证 cuDNN 安装
运行以下命令验证 cuDNN 版本:
cat /usr/local/cuda-11.0/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
输出示例:
#define CUDNN_MAJOR 8
#define CUDNN_MINOR 0
#define CUDNN_PATCHLEVEL 4
五、测试 CUDA 和 cuDNN
1. CUDA 示例测试
- 进入 CUDA 示例程序目录:
cd /usr/local/cuda-11.0/samples/1_Utilities/deviceQuery
2. 编译示例程序:
sudo make
3. 运行测试:
./deviceQuery
输出示例:
Result = PASS
2. cuDNN 示例测试
下载 cuDNN 示例程序或编写简单代码调用 cuDNN API,测试其功能。
六、常见问题排查
nvcc
或deviceQuery
无法找到:- 确认 CUDA 路径已正确配置。
- 检查
/usr/local/cuda-11.0/bin
是否存在。
nvidia-smi
无法识别 GPU:- 确保 NVIDIA 驱动已正确安装并匹配 GPU 型号。
- 尝试重装驱动。
- cuDNN 版本不兼容:
- 确认下载的 cuDNN 版本与 CUDA 11.0 兼容。
七、总结
通过上述步骤,你已经成功在 Ubuntu 服务器上安装了 CUDA 11.0 和 cuDNN,并验证了其功能。接下来,你可以使用这些工具进行深度学习模型的训练和开发。若有其他问题,可以随时提问!
发布者:myrgd,转载请注明出处:https://www.object-c.cn/4423