最近老白弄了点私活,打算把自家的老旧电脑好好利用下,搞搞模型训练。以前用的都是公司资源,环境都是配置好的。这次正好自己配置下,在这里就记录下学习过程,方便后来查阅,也方便需要的朋友查看。
Compute Capability(计算能力)是NVIDIA用来标识GPU架构特性的版本号。它由主版本号和次版本号组成(如8.6),主版本号表明GPU的核心架构,次版本号表明该架构的增量改善。不同的CC支持不同的CUDA功能,如共享内存大小、最大线程数等。

查看使用显卡型号

显卡对应CC值
访问NVIDIA CUDA文档(
https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#compute-capabilities),可以找到CC和对应架构的名字。

查看CUDA版本的Release Notes,一般在release notes 里面会有关于哪些架构或者CC不支持或者最低支持的要求。一般我通过查找“compute”来确认CUDA版本支持的CC或者架构。列如下图中是CUDA 11.7的release notes,其就声明了不再支持kepler架构。

一般原则:
这边使用conda 来进行安装的好处是,我们同时拥有了包管理和环境管理两个工具。并且conda能够协助处理好对应的cuda的下载。如果我们只是使用wheel(基于pip)或者pip,某些非python的依赖可能就没办法很好的处理。
# 创建新的conda环境
conda create -n pytorch-env python=3.10.11
# 激活环境
conda activate pytorch-env
# 安装CUDA Toolkit(以CUDA 11.8为例)
# 查看https://anaconda.org/nvidia/cuda-toolkit获得具体repo
conda install cuda-toolkit -c nvidia/label/cuda-11.7.0
# 安装PyTorch(以CUDA 11.7和PyTorch 2.0.1为例)
# 查看https://pytorch.org/get-started/previous-versions
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
# 验证安装
python -c "import torch; print(torch.cuda.is_available())"
python -c "import torch; print(torch.version.cuda)"
python -c "import torch; print(torch.backends.cudnn.enabled)"
如果上述验证全部通过,说明环境配置成功。如果遇到错误,请根据上面的步骤再次检查: