本文旨在为您提供一份全面的 GPU 选型指南,涵盖如何选择 CPU , GPU ,内存;无论您是寻求极致游戏体验的玩家,还是需要强大计算力支持的专业人士,本文都将帮助您在众多产品中筛选出最适合的那一款 GPU ,以满足您的特定需求。
选择 CPU
选择 GPU 云服务器的 CPU 时,主要考虑以下几个因素:
- GPU 与 CPU 的匹配:首先,要考虑 GPU 与 CPU 之间的匹配性。不同型号的 GPU 对 CPU 的要求不同,因此需要选择与所使用的 GPU 相匹配的 CPU 。通常,GPU的规格中会标明所需的最低 CPU 要求,可以参考这个要求来选择合适的 CPU 。
- 处理器核心数:其次,要考虑处理器的核心数。CPU 的核心数越多,可以同时处理的线程就越多,从而提高计算性能。对于需要进行大规模并行计算的应用,如机器学习、深度学习等,选择核心数较多的 CPU 能够更好地发挥 GPU 的计算能力。
- 频率与缓存大小:除了核心数外,CPU 的频率和缓存大小也会对计算性能产生影响。频率越高,计算速度越快;而缓存越大,能够存储的数据量就越多,从而减少对内存的读写次数,提高计算效率。
- 平台兼容性:此外,还需要考虑 GPU 云服务器所采用的平台。不同的平台对 CPU 的要求也有所不同,因此需要选择与所用平台兼容的 CPU 。
- 功耗与散热:最后,还需要考虑 CPU 的功耗和散热情况。高性能的 CPU 通常会消耗更多的功耗,产生更多的热量,因此需要确保服务器的散热系统能够有效降低温度并保证稳定运行。
综上所述,选择 GPU 云服务器的 CPU 时,应考虑与 GPU 的匹配性、核心数、频率与缓存大小、平台兼容性以及功耗与散热情况等因素。根据不同的应用需求和预算限制,选择最适合自己的 GPU 云服务器的 CPU 。
选择 GPU
将 GPU 架构大致分为五类的方式可能因人而异,但基于 NVIDIA 的 GPU 发展历程,我们可以这样归纳:
- 传统图形处理架构:这是指那些专注于图形渲染和早期计算功能的架构,比如 NVIDIA 的 Fermi 架构之前的产品。这类架构主要关注于游戏和基本的图形应用。
- 通用计算架构:以 Fermi 架构为代表,标志着 GPU 开始广泛应用于通用计算领域。 Fermi 架构引入了完整的 GPU 计算架构,并加强了双精度支持,使得 GPU 在科学计算和工程仿真等领域发挥重要作用。
- 高效能计算架构:如 Kepler、Maxwell、Pascal 等架构,这些架构在提高效能的同时,也引入了诸如 GPU Direct 等技术,进一步增强了 GPU 在高性能计算 (HPC) 领域的应用能力。
- 人工智能与深度学习架构:Volta 架构引入了 Tensor Cores,专门用于加速深度学习和 AI 计算任务。随后的 Turing 架构继续推进AI计算能力,并引入了 RT Cores 支持实时光线追踪技术。
- 现代综合计算架构:包括 Ampere 及其后续的 Ada Lovelace 架构,这些架构不仅进一步提升了 AI 和光线追踪性能,还在图形计算、游戏体验以及专业计算领域达到了新的高度。
需要注意的是,上述分类是基于 NVIDIA GPU 的发展历程,而 GPU 市场中还有其他重要的玩家,如 AMD 和Intel,它们也有自己独特的 GPU 架构和技术路线。此外,随着技术的快速发展,新的架构和类别可能还会不断涌现。一般我们认为模型的一次训练应当在 24 小时内完成,这样隔天就能训练改进之后的模型。以下是选择多 GPU 的一些建议:
- 1块 GPU。适合一些数据集较小的训练任务,如 Pascal VOC 等。
- 2块 GPU。同单块 GPU,但是您可以一次跑两组参数或者把Batchsize扩大。
- 4块 GPU。适合一些中等数据集的训练任务,如 MS COCO 等。
- 8块 GPU。经典永流传的配置!适合各种训练任务,也非常方便复现论文结果。
选择内存
内存在充足的情况下一般不影响性能,但是由于实例相比本地电脑对内存的使用有更严格的上限限制(本地电脑内存不足会使用硬盘虚拟内存,影响是速度下降),比如租用的实例分配的内存是 128 GB ,程序在训练时最后将要使用 129 GB ,此时超过限制的这一时刻进程会被系统 Kill 导致程序中断,因此如果对内存的容量要求大,请选择分配内存更多的主机或者租用多 GPU 实例。如果不确定内存的使用,那么可以在实例监控中观察内存使用情况。
附GPU型号简介
| 型号 | 显存 | 单精(FP 32) | 半精(FP 16) | 说明 |
| 4090 | 24 GB | 82.58 T | 165.2 T | 新一代高性能 GPU,提供卓越的单精度和半精度计算能力,适合性价比高的场景。除了显存相对较小外,几乎无明显短板。 |
| V100 | 16/32 GB | 15.7 T | 125 T | 为专业计算场景设计的高端产品,特别适合进行高半精度计算任务,是前代计算卡的领军产品。 |
| A100 SXM4 | 40/80 GB | 19.5 T | 312 T | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有 NVLink 加持,多卡并行加速比非常高。需要使用 cuda 11.x |
| Tesla P40 | 24 GB | 11.76 T | 11.76 T | 基于较早的 Pascal 架构,适合需求较大显存且使用 cuda 11.x 之前版本的计算任务。 |
| TITAN XP | 12 GB | 12.15 T | 12.15 T | Pascal 架构下的老旧型号,适宜作为初学者的入门级选择。 |
| 1080 Ti | 11 GB | 11.34 T | 11.34 T | 与 TITAN XP 同代产品,适合入门级用户,但 11 GB 显存可能在某些情况下限制其使用。 |
| 2080Ti | 11 GB | 13.45 T | 53.8 T | 图灵架构 GPU,提供良好性能,特别适用于混合精度计算场景,具有较高的性价比。 |
| 3060 | 12 GB | 12.74 T | 约 24 T | 若 1080 Ti 的显存不满足需求,3060 提供了一个较好的替代方案,特别适合初学者并要求使用 cuda 11.x |
| A4000 | 16 GB | 19.17 T | 约76 T | 显存和算力都比较均衡,适合进阶过程使用。需要使用 cuda 11.x |