06flops gpu卡 FP32 FP64 性能比较

FP32: 单精度浮点计算能力
FP64: 双精度浮点计算能力

gpu卡

FP32(TFLOPS)

FP64(TFLOPS)

架构 architecture

3080ti

34.1

0.533

Ampere

3090

35.58

0.556

Ampere

4090

82.58

1.29

Ada Lovelace

a100

19.5

9.7

Ampere

a10

31.24

0.976

Ampere

a40

37.420

1.168

Ampere

L40

90.516

1.414

Ada Lovelace

a800

19.5

9.7

Ampere

T400

Turing

p100

Pascal

在 GPU 的性能比较中, FP32(单精度浮点运算)通常是更为关键和普遍关注 的一个性能指标.
FP32 主要用于深度学习、图形渲染等许多计算密集型任务,
因此在这些领域中, FP32 算力通常被广泛用来评估 GPU 的性能。

而 FP64 主要在科学计算、数值模拟等需要更高精度计算的领域才会被重点关注

对于大多数应用来说, FP32 已经足够满足精度要求, 并且可以获得更高的计算效率和更低的功耗.

对于对精度要求极高的应用, 例如科学计算、金融模拟等, 则需要使用 FP64 来保证计算结果的准确性.

Ada Lovelace 和 Hopper 是同一代架构, 只是分别供货给超算领域和消费级市场
消费级芯片会带有 RT Core, 这些处理器在 Data Center 是用不上的
所以是同一代制程工艺、架构设计, 微调衍生出来的2个变种。
  1. 显卡架构信息(以每代架构中最强显卡的参数为代表)

    计算能力

    架构

    发布年代

    Cores/SM

    总 SM 数

    CUDA Cores

    L1 Cache(KB)

    L2 Cache(KB)

    1.0

    Tesla

    2.0

    Fermi

    2009

    32

    16 SM

    512

    48

    768

    3.0

    Kepler

    2012

    192

    15 SMX

    2880

    48

    1536

    4.0

    5.0

    Maxwell

    2014

    128

    24 SMM

    3072

    96

    2048

    6.0

    Pascal

    2016

    64

    60 SM

    3840

    64

    4096

    7.0

    Volta

    2018

    648 个 Tensor Core

    80 SM

    5120

    与共享内存共用 128(最多 96)

    6144

    7.5

    Turing

    2018

    648 个 Tensor Core

    72 SM

    4608

    与共享内存共用 128(最多 96)

    6144

    8.0

    Ampere

    2020

    648 个 Tensor Core

    108 SM

    6912

    与共享内存共用 192(最多 164)

    40960

    9.0

    Hopper

    2022

    1284 个 Tensor Core

    144 SM

    18432

    与共享内存共用 256

    61440

    参见

    • 从 Turing 开始出现了半代计算能力的区别, 实际上 Turing(7.5) 是 Volta(7.0) 的小改款. (Turing 架构 = Volta 架构 - FP64 + RT Cores)

    • 在 Ampere 这一代上也有这种区别, 计算能力 8.0 对应最早的企业级显卡核心(GA100),
      8.6 对应之后的消费级核心(GA102、GA104、GA106、GA107), 虽然 8.6 没有获得一个额外的架构命名.
    • Hopper 架构上, 不出意外也会有半代计算能力的区别——这实质上是 Data Center 核心和消费级核心的区别.

  2. Ampere 常用显卡的可用 SM 数量

    显卡型号

    3060

    3060Ti

    3070

    3070Ti

    3080

    3080Ti

    3090

    3090Ti

    SM 数量

    28

    38

    46

    48

    68

    80

    82

    84

    显存

    12 GB

    8 GB

    8 GB

    8 GB

    10 GB

    12 GB

    24 GB

    24 GB

  3. 显卡架构参考

    显卡架构

    参考

    Ada Lovelace

    https://en.wikipedia.org/wiki/Ada_Lovelace_(microarchitecture)

    Ampere

    https://en.wikipedia.org/wiki/Ampere_(microarchitecture)

    Hopper

    https://en.wikipedia.org/wiki/Hopper_(microarchitecture)

    Turing

    https://en.wikipedia.org/wiki/Turing_(microarchitecture)

    Volta

    https://en.wikipedia.org/wiki/Volta_(microarchitecture)

  4. 参考

https://www.nvidia.com/en-us/data-center/a100/ 官方 a100 规格参数 Specifications

https://www.nvidia.com/en-us/design-visualization/a800/ 官方 a800 规格参数 Specifications

https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3080-3080ti/ 官方 3080ti 规格参数 Specs

https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3090-3090ti/ 官方 3090 规格参数 Specs

https://www.twisted-meadows.com/nvidia-gpu-architecture/ nvidia 显卡架构详解

p100 v100 a100 h100 b100 对比