NVIDIA RTX 30系列架构详解（三）

微信支付

2020.9.28

致力于为分析测试行业奉献终身

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

GA102核心的SM单元

按照之前图灵GPU的路线走，安培GPU的SM单元增加的并不多，但实际上FP32性能翻倍了还多，算上频率，RTX 3080的理论性能差不多是RTX 2080的三倍了，这是怎么做到的？

答案就是CUDA核心的FP32翻倍，但翻倍的方式有点特殊，每个SM单元中有4个分区，每个分区除了第三代Tensor Core核心之外，还有一组是16个FP32单元及16个FP32、16个IN32组成的单元，后者可以同时执行FP32或者INT32运算。

16个FP32单元每周期可执行16个FP32运算，混合的那个单元可以执行32个FP32或者16个FP32＋16个INT32。

如此一来，每个SM单元可以同时执行4x（16FP32＋16FP32）＝128个FP32运算，或者4x（16FP32＋16INT32）＝64个FP32＋64个INT32运算。

只算FP32浮点的话，那么就是浮点翻倍了，因为图灵以及GA100都是每周期64个FP32浮点而已，现在可以做128个FP32运算了。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

提升FP32性能不论对游戏还是运算都大有裨益，但也需要配套的提升，GA102的L1容量提升了33％，L1带宽从116GB／s翻倍到219GB／s，共享内存的性能也从每周期64B翻倍到128B。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

互联网

分析测试百科网