06flops gpu卡 FP32 FP64 性能比较

FP32: 单精度浮点计算能力

FP64: 双精度浮点计算能力

在 GPU 的性能比较中, FP32(单精度浮点运算)通常是更为关键和普遍关注 的一个性能指标.
FP32 主要用于深度学习、图形渲染等许多计算密集型任务，
因此在这些领域中, FP32 算力通常被广泛用来评估 GPU 的性能。

而 FP64 主要在科学计算、数值模拟等需要更高精度计算的领域才会被重点关注

对于大多数应用来说, FP32 已经足够满足精度要求, 并且可以获得更高的计算效率和更低的功耗.

对于对精度要求极高的应用, 例如科学计算、金融模拟等, 则需要使用 FP64 来保证计算结果的准确性.

Ada Lovelace 和 Hopper 是同一代架构, 只是分别供货给超算领域和消费级市场
消费级芯片会带有 RT Core, 这些处理器在 Data Center 是用不上的
所以是同一代制程工艺、架构设计, 微调衍生出来的2个变种。

显卡架构信息(以每代架构中最强显卡的参数为代表)

计算能力	架构	发布年代	Cores/SM	总 SM 数	CUDA Cores	L1 Cache(KB)	L2 Cache(KB)
1.0	Tesla
2.0	Fermi	2009	32	16 SM	512	48	768
3.0	Kepler	2012	192	15 SMX	2880	48	1536
4.0	—
5.0	Maxwell	2014	128	24 SMM	3072	96	2048
6.0	Pascal	2016	64	60 SM	3840	64	4096
7.0	Volta	2018	648 个 Tensor Core	80 SM	5120	与共享内存共用 128(最多 96)	6144
7.5	Turing	2018	648 个 Tensor Core	72 SM	4608	与共享内存共用 128(最多 96)	6144
8.0	Ampere	2020	648 个 Tensor Core	108 SM	6912	与共享内存共用 192(最多 164)	40960
9.0	Hopper	2022	1284 个 Tensor Core	144 SM	18432	与共享内存共用 256	61440

参见

从 Turing 开始出现了半代计算能力的区别, 实际上 Turing(7.5) 是 Volta(7.0) 的小改款. (Turing 架构 = Volta 架构 - FP64 + RT Cores)
在 Ampere 这一代上也有这种区别, 计算能力 8.0 对应最早的企业级显卡核心(GA100),

8.6 对应之后的消费级核心(GA102、GA104、GA106、GA107), 虽然 8.6 没有获得一个额外的架构命名.
Hopper 架构上, 不出意外也会有半代计算能力的区别——这实质上是 Data Center 核心和消费级核心的区别.

显卡架构参考

显卡架构	参考
Ada Lovelace	https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture)
Ampere	https://en.wikipedia.org/wiki/Ampere_(microarchitecture)
Hopper	https://en.wikipedia.org/wiki/Hopper_(microarchitecture)
Turing	https://en.wikipedia.org/wiki/Turing_(microarchitecture)
Volta	https://en.wikipedia.org/wiki/Volta_(microarchitecture)

显卡型号	3060	3060Ti	3070	3070Ti	3080	3080Ti	3090	3090Ti
SM 数量	28	38	46	48	68	80	82	84
显存	12 GB	8 GB	8 GB	8 GB	10 GB	12 GB	24 GB	24 GB