先看结论:哪个最值得买?
如果你预算充足且买得到,H200是目前性价比最高的选择,显存翻倍、带宽提升,AI推理和训练都能打。B200性能最强但价格离谱,适合不差钱的超大规模集群。A100/A800是上一代,现在入手二手或特供版做小规模推理还行,但别指望跑大模型训练。
国内用户注意:A800/H800是阉割版,带宽砍半,但价格也低,合规且能买到,适合国内企业。H100/H200/B200禁售,只能走特殊渠道或云服务。
一、英伟达数据中心GPU的几代架构
先理清代际关系,别被型号搞晕:
- Ampere(安培):2020年发布,代表产品A100、A800(国内特供)。架构代号GA100,核心特点:第三代Tensor Core、支持稀疏计算、MIG多实例GPU。
- Hopper(霍珀):2022年发布,代表产品H100、H800(国内特供)、H200。架构代号GH100,核心特点:第四代Tensor Core、Transformer Engine(专门优化大模型)、DPX指令集、NVLink Switch。
- Ada Lovelace(艾达):2022年发布,主要是消费级RTX 40系列,数据中心有L40S等,但本文不展开。
- Blackwell(布莱克韦尔):2024年发布,代表产品B200、GB200。架构全新,双芯片封装,第五代Tensor Core,性能飞跃。
目前主流数据中心部署:A100(上一代)→ H100(当前主力)→ H200(升级显存)→ B200(下一代)。
二、核心型号详细对比
1. A100 vs A800:国内特供版到底阉割了什么?
A100是Ampere架构的旗舰,2020年发布,80GB HBM2e显存,带宽2TB/s。A800是2022年底推出的国内合规版,主要变化:NVLink带宽从600GB/s砍到400GB/s,其他算力、显存完全一致。
为什么这么干?美国出口管制要求:互连带宽不能超过某个阈值(实际是400GB/s)。所以A800就是A100的降级互联版。价格上,A800比A100便宜约20%,但性能损失仅在多卡通信时体现,单卡推理完全没区别。
适用场景:国内企业买不到A100,A800是首选。单卡训练小模型、推理部署完全够用。多卡大模型训练(比如175B参数以上的模型)会受NVLink带宽限制,但也能用,就是慢点。
2. H100 vs H800:又是特供版
H100是Hopper架构,2022年发布,80GB HBM3显存,带宽3.35TB/s,支持FP8 Transformer Engine。H800是2023年国内特供版,NVLink带宽从900GB/s砍到400GB/s,显存、算力不变。
H100的NVLink带宽比A100提升50%,多卡训练效率更高。H800的NVLink只有400GB/s,相当于倒退到A800水平。但单卡性能H800依然碾压A100。
适用场景:H100是国际主力,训练GPT-4级别模型标配。H800在国内卖爆,很多大厂都在囤。注意:H100/H800目前被美国全面禁售给中国,存量卡还能用,新购只能走二手或云。
3. H200:H100的显存升级版
H200本质是H100的显存升级:HBM3e显存,容量141GB,带宽4.8TB/s,比H100的80GB/3.35TB/s提升巨大。核心计算单元(Tensor Core数量、频率)基本没变。
为什么显存这么重要?因为大模型推理时,模型参数和KV Cache都吃显存。H200的141GB可以装下更大的模型(比如Llama 3 70B全精度),或者支持更长上下文。训练时更大的显存意味着更大的batch size,吞吐量提升明显。
价格方面,H200比H100贵约50%-70%,但性能提升(尤其是推理场景)可能超过100%。所以对于大模型推理,H200性价比更高。
适用场景:大模型推理(长上下文、大batch)、大规模训练(降低通信开销)。国内基本买不到,只能租云服务。
4. B200:下一代性能怪兽
B2024年发布,Blackwell架构,采用双芯片封装(两个B100 die),晶体管数量2080亿,台积电4NP工艺。关键参数:192GB HBM3e显存,带宽8TB/s,FP8算力高达4.5 PFLOPS(是H100的2.5倍)。
B200还有个兄弟GB200,把两个B200和Grace CPU封装在一起,适合HPC和大模型训练。B200目前刚量产,价格据说3-4万美元一片,比H100贵一倍以上。
适用场景:超大规模AI训练(万亿参数模型)、科学计算。普通企业看看就好,等降价或者租云。
三、各型号价格与性价比
以下价格均为市场参考价(美元),波动大,仅作对比:
- A100 80GB:二手约8000-10000美元,新卡已停产。
- A800 80GB:国内新卡约7000-9000美元(合规溢价)。
- H100 80GB:25000-30000美元,溢价严重。
- H800 80GB:国内新卡约20000-25000美元。
- H200 141GB:35000-40000美元,新上市。
- B200 192GB:预计40000-50000美元,早期更贵。
性价比排序(考虑显存、带宽、算力):
推理场景:H200 > H100 > A100 > B200(太贵)
训练场景:B200 > H200 > H100 > A100
国内特供:A800 > H800(价格敏感选A800,性能需求高选H800)
四、如何选择?一张表搞定
| 需求 | 推荐型号 | 理由 |
|---|---|---|
| 小模型推理(<10B参数) | A800 / A100 | 够用,便宜 |
| 大模型推理(>10B) | H200 / H100 | 显存大,带宽高 |
| 多卡训练(国内) | H800 | 单卡性能强,NVLink虽砍但比A800好 |
| 多卡训练(国际) | H100 / H200 | NVLink满血,效率高 |
| 超大模型训练(>1000B) | B200 / GB200 | 算力碾压,显存超大 |
| 预算有限且合规 | A800 | 二手A800性价比极高 |
五、注意事项与避坑指南
- 别买A100水货:国内A100基本是走私或二手翻新,无保修且可能被海关扣押。安全合规用A800。
- H100/H200/B200国内买不到新卡:美国禁令后,英伟达不再向中国出口。想用只能通过阿里云、腾讯云等租用海外节点,或者买二手(注意二手也可能违规)。
- 显存不是唯一指标:H200显存大但算力和H100一样,如果模型不大,H100可能更划算。
- NVLink带宽对多卡训练影响大:如果做8卡以上训练,A800/H800的带宽瓶颈明显,尽量用满血版。
- 别只看GPU,还要看整体系统:CPU、内存、网络(InfiniBand)、散热都会影响性能。H100/H200通常搭配NVLink Switch,需要相应主板。
总结
英伟达数据中心GPU产品线看似复杂,其实核心就是按预算和可用性选。国内用户首选A800或H800,国际用户H100/H200是当前最优解,不差钱直接上B200。记住一点:显存越大越好,带宽越高越快,但也要看钱包和合规性。
最后,如果你不是自己建集群,建议直接租云GPU,省心又灵活。现在很多云平台都有H100、H200实例,按小时付费,比买卡划算。
本文来源:一江山水的随笔
本文地址:https://298.name/post/182.html
主要内容:英伟达GPU全家福:H100/H200/B200/A100/A800怎么选
版权声明:如无特别注明,转载请注明本文地址!
