GPU 选型指南

本文旨在为您提供一份全面的 GPU 选型指南，涵盖如何选择 CPU ， GPU ，内存；无论您是寻求极致游戏体验的玩家，还是需要强大计算力支持的专业人士，本文都将帮助您在众多产品中筛选出最适合的那一款 GPU ，以满足您的特定需求。

选择 GPU 云服务器的 CPU 时，主要考虑以下几个因素：

GPU 与 CPU 的匹配：首先，要考虑 GPU 与 CPU 之间的匹配性。不同型号的 GPU 对 CPU 的要求不同，因此需要选择与所使用的 GPU 相匹配的 CPU 。通常，GPU的规格中会标明所需的最低 CPU 要求，可以参考这个要求来选择合适的 CPU 。
处理器核心数：其次，要考虑处理器的核心数。CPU 的核心数越多，可以同时处理的线程就越多，从而提高计算性能。对于需要进行大规模并行计算的应用，如机器学习、深度学习等，选择核心数较多的 CPU 能够更好地发挥 GPU 的计算能力。
频率与缓存大小：除了核心数外，CPU 的频率和缓存大小也会对计算性能产生影响。频率越高，计算速度越快；而缓存越大，能够存储的数据量就越多，从而减少对内存的读写次数，提高计算效率。
平台兼容性：此外，还需要考虑 GPU 云服务器所采用的平台。不同的平台对 CPU 的要求也有所不同，因此需要选择与所用平台兼容的 CPU 。
功耗与散热：最后，还需要考虑 CPU 的功耗和散热情况。高性能的 CPU 通常会消耗更多的功耗，产生更多的热量，因此需要确保服务器的散热系统能够有效降低温度并保证稳定运行。

综上所述，选择 GPU 云服务器的 CPU 时，应考虑与 GPU 的匹配性、核心数、频率与缓存大小、平台兼容性以及功耗与散热情况等因素。根据不同的应用需求和预算限制，选择最适合自己的 GPU 云服务器的 CPU 。

将 GPU 架构大致分为五类的方式可能因人而异，但基于 NVIDIA 的 GPU 发展历程，我们可以这样归纳：

传统图形处理架构：这是指那些专注于图形渲染和早期计算功能的架构，比如 NVIDIA 的 Fermi 架构之前的产品。这类架构主要关注于游戏和基本的图形应用。
通用计算架构：以 Fermi 架构为代表，标志着 GPU 开始广泛应用于通用计算领域。 Fermi 架构引入了完整的 GPU 计算架构，并加强了双精度支持，使得 GPU 在科学计算和工程仿真等领域发挥重要作用。
高效能计算架构：如 Kepler、Maxwell、Pascal 等架构，这些架构在提高效能的同时，也引入了诸如 GPU Direct 等技术，进一步增强了 GPU 在高性能计算 (HPC) 领域的应用能力。
人工智能与深度学习架构：Volta 架构引入了 Tensor Cores，专门用于加速深度学习和 AI 计算任务。随后的 Turing 架构继续推进AI计算能力，并引入了 RT Cores 支持实时光线追踪技术。
现代综合计算架构：包括 Ampere 及其后续的 Ada Lovelace 架构，这些架构不仅进一步提升了 AI 和光线追踪性能，还在图形计算、游戏体验以及专业计算领域达到了新的高度。

需要注意的是，上述分类是基于 NVIDIA GPU 的发展历程，而 GPU 市场中还有其他重要的玩家，如 AMD 和Intel，它们也有自己独特的 GPU 架构和技术路线。此外，随着技术的快速发展，新的架构和类别可能还会不断涌现。一般我们认为模型的一次训练应当在 24 小时内完成，这样隔天就能训练改进之后的模型。以下是选择多 GPU 的一些建议：

1块 GPU。适合一些数据集较小的训练任务，如 Pascal VOC 等。
2块 GPU。同单块 GPU，但是您可以一次跑两组参数或者把Batchsize扩大。
4块 GPU。适合一些中等数据集的训练任务，如 MS COCO 等。
8块 GPU。经典永流传的配置！适合各种训练任务，也非常方便复现论文结果。

内存在充足的情况下一般不影响性能，但是由于实例相比本地电脑对内存的使用有更严格的上限限制（本地电脑内存不足会使用硬盘虚拟内存，影响是速度下降），比如租用的实例分配的内存是 128 GB ，程序在训练时最后将要使用 129 GB ，此时超过限制的这一时刻进程会被系统 Kill 导致程序中断，因此如果对内存的容量要求大，请选择分配内存更多的主机或者租用多 GPU 实例。如果不确定内存的使用，那么可以在实例监控中观察内存使用情况。

型号	显存	单精(FP 32)	半精(FP 16)	说明
4090	24 GB	82.58 T	165.2 T	新一代高性能 GPU，提供卓越的单精度和半精度计算能力，适合性价比高的场景。除了显存相对较小外，几乎无明显短板。
V100	16/32 GB	15.7 T	125 T	为专业计算场景设计的高端产品，特别适合进行高半精度计算任务，是前代计算卡的领军产品。
A100 SXM4	40/80 GB	19.5 T	312 T	新一代专业计算卡皇，除了贵没缺点。显存大，非常适合做半精计算，因为有 NVLink 加持，多卡并行加速比非常高。需要使用 cuda 11.x
Tesla P40	24 GB	11.76 T	11.76 T	基于较早的 Pascal 架构，适合需求较大显存且使用 cuda 11.x 之前版本的计算任务。
TITAN XP	12 GB	12.15 T	12.15 T	Pascal 架构下的老旧型号，适宜作为初学者的入门级选择。
1080 Ti	11 GB	11.34 T	11.34 T	与 TITAN XP 同代产品，适合入门级用户，但 11 GB 显存可能在某些情况下限制其使用。
2080Ti	11 GB	13.45 T	53.8 T	图灵架构 GPU，提供良好性能，特别适用于混合精度计算场景，具有较高的性价比。
3060	12 GB	12.74 T	约 24 T	若 1080 Ti 的显存不满足需求，3060 提供了一个较好的替代方案，特别适合初学者并要求使用 cuda 11.x
A4000	16 GB	19.17 T	约76 T	显存和算力都比较均衡，适合进阶过程使用。需要使用 cuda 11.x

2024-09-12

GPU 选型指南

选择 CPU

选择 GPU

选择内存

附GPU型号简介

本页目录