当前位置：首页 - 技术 - 正文

Enjoy life！

GPU里最贵的模块：张量核心（Tensor Core）到底是什么？为什么H100/H200疯狂堆它

2026-04-11 | 技术 | sun | 62 次阅读

A⁺ A^-

先说结论：Tensor Core是GPU里专门为AI矩阵运算定制的“加速器”，效率比普通CUDA核心高几十倍，所以H100/H200才拼命堆它来跑大模型

最近看NVIDIA的H100、H200这些顶级GPU的规格，最显眼的就是Tensor Core数量暴涨——H100有528个，比上一代A100的432个还多。这玩意儿到底贵在哪？简单说，Tensor Core是GPU里专门为矩阵乘法（尤其是AI里的张量运算）设计的硬件单元，效率比普通CUDA核心高出一个数量级。没有它，现在的AI大模型训练速度得慢好几倍。

普通CUDA核心 vs Tensor Core：处理矩阵乘法效率差多少？

普通CUDA核心（也叫流处理器）是通用计算单元，啥都能干，但矩阵乘法这种操作对它来说就像用瑞士军刀切牛排——能切，但效率不高。一个CUDA核心一次只能处理一个浮点运算（比如乘加）。

Tensor Core就不一样了，它是专门为矩阵乘法设计的“定制刀”。以NVIDIA的Tensor Core为例，它一次能处理一个4x4的矩阵块（16个元素）的乘加运算。这相当于：

普通CUDA核心：1次操作 = 1个浮点运算
Tensor Core：1次操作 = 16个浮点运算（理论上）

实际效率差多少？我查了下数据：在FP16精度下，Tensor Core的矩阵乘法吞吐量比CUDA核心高约8-10倍；如果用到混合精度（比如TF32），差距能拉到几十倍。举个例子，A100的Tensor Core在特定矩阵尺寸下，峰值算力能达到312 TFLOPS（万亿次浮点运算/秒），而它的CUDA核心部分只有19.5 TFLOPS——差了16倍！

// 伪代码示意：普通CUDA核心做矩阵乘法
for i in range(rows):
    for j in range(cols):
        sum = 0
        for k in range(inner):
            sum += A[i][k] * B[k][j]  // 一次乘加，一个CUDA核心干
        C[i][j] = sum

// Tensor Core：硬件直接处理4x4块，一次操作搞定16个元素
// 相当于并行度爆表

为什么H100/H200疯狂堆Tensor Core数量？

答案就一个词：Transformer。现在所有AI大模型（GPT、Llama、Gemini等等）底层都是Transformer架构，而Transformer的核心运算就是矩阵乘法——注意力机制、前馈网络全是大矩阵乘。

我粗略算过：训练一个千亿参数模型，90%以上的计算时间都在做矩阵乘法。这时候，堆Tensor Core就像给高速公路加车道，直接提升模型训练和推理速度。H100比A100多了近100个Tensor Core，再加上架构优化（比如支持FP8低精度），实际AI算力提升了好几倍。

更关键的是，Tensor Core不仅快，还省电。因为它是专用电路，干矩阵乘法的能效比通用CUDA核心高得多。对于数据中心来说，电费是大头，所以哪怕Tensor Core本身贵（据说占GPU芯片面积不小），但长期看反而划算。

这和Transformer架构有什么关系？

Transformer简直就是为Tensor Core量身定做的。它的注意力机制（Self-Attention）可以分解成一系列矩阵乘：Q、K、V的投影，注意力权重的计算，输出变换等等。这些操作天然就是批量、规整的矩阵运算，正好撞上Tensor Core的枪口。

举个例子，多头注意力里，每个头的计算都可以独立并行，Tensor Core能同时处理多个头的矩阵块。而普通CUDA核心得一个个算，慢不说，还浪费资源。

这也是为什么NVIDIA从Volta架构（2017年）开始引入Tensor Core，之后每一代都加强——AI火了，Transformer成了标配，不堆Tensor Core堆啥？

实际使用中的注意事项

当然，Tensor Core不是万能的。你得注意几点：

精度支持：Tensor Core主要针对低精度计算（FP16、BF16、TF32、INT8等）。如果你需要高精度（FP64），还得靠CUDA核心。所以科学计算领域可能更看重CUDA核心数量。
矩阵尺寸对齐：Tensor Core对矩阵尺寸有要求（比如必须是16的倍数），如果没对齐，可能退回到CUDA核心计算，速度就下来了。编程时得注意数据布局。
软件生态：得用支持Tensor Core的库，比如cuBLAS、cuDNN，或者框架像PyTorch、TensorFlow的GPU版本。自己手写CUDA代码可能用不上Tensor Core。

我自己的体验：用PyTorch训练模型时，如果数据加载和预处理没搞好，GPU利用率上不去，Tensor Core再强也白搭。所以硬件是基础，软件优化才是关键。

总结

Tensor Core就是GPU里专门为AI矩阵乘法设计的“特种部队”，效率比普通CUDA核心高几十倍。H100/H200疯狂堆它，是因为现在的AI大模型全靠Transformer，而Transformer的核心就是矩阵乘。没有Tensor Core，大模型训练时间得翻几倍，成本根本扛不住。

所以，如果你搞AI，选GPU时Tensor Core数量比CUDA核心数更重要（当然，显存、带宽也得看）。普通用户打游戏？那Tensor Core基本用不上，游戏卡里也有，但主要是为了DLSS这种AI超分，影响没那么大。

一句话：Tensor Core是AI时代的“硬通货”，贵得有道理。

本文来源：一江山水的随笔

本文地址：https://298.name/post/180.html

主要内容：GPU里最贵的模块：张量核心（Tensor Core）到底是什么？为什么H100/H200疯狂堆它

标签：GPU Tensor Core AI硬件 NVIDIA 深度学习

上一篇

AI智能体会抢走程序员的工作吗？一个程序员的真实感受

下一篇

博主有点懒,啥也没写!

想找什么搜索会更快哦！

站点信息

文章总数:171
页面总数:1
分类总数:4
标签总数:170
评论总数:61
浏览总数:1643341

控制面板

您好，欢迎到访网站！
查看权限