先说结论:烧钱烧电,普通人玩不起
训练一次GPT-4,大概需要2.5万张NVIDIA A100显卡连续运行80-100天。电费?光显卡功耗就超过5兆瓦,算上散热等,总功耗接近10兆瓦。什么概念?一个普通家庭一个月用电约300度,10兆瓦一小时就是1万度,一天24万度,够一个家庭用800年。当然,这是峰值,实际训练不会满负荷,但依然恐怖。
更直观的:GPT-3训练耗电约1,300兆瓦时(MWh),相当于一个美国小型城镇(约1000户)一个月的用电量。GPT-4规模更大,保守估计是GPT-3的5-10倍,也就是6500-13000兆瓦时。按工业电价0.1美元/度算,仅电费就65-130万美元。加上显卡折旧、人工、网络等,一次训练成本轻松过亿美金。
算力单位科普:Flops是什么?
算力常用单位是FLOPS(浮点运算次数/秒)。1 PFLOPS = 10^15 FLOPS,1 EFLOPS = 10^18 FLOPS。A100单卡FP32算力约19.5 TFLOPS(万亿次),FP16(混合精度)约312 TFLOPS。训练GPT-4需要多少算力?据估算,GPT-4参数量1.8万亿,训练计算量约2.15e25 FLOPS(21.5 zettaFLOPS)。用A100混合精度,需要约2.15e25 / (312e12 * 3600 * 24 * 100) ≈ 2.5万张卡跑100天。这个数字很惊人,但实际因为并行效率损失,可能需要更多卡。
作为对比:Stable Diffusion生成一张512x512图像,需要约35 GFLOPS(350亿次浮点运算)。看起来小,但一次推理也要消耗约0.01度电。如果每天生成100万张,就是1万度电。AI应用普及后,总能耗不容小觑。
人类大脑 vs GPU集群:效率差距巨大
人脑功耗约20瓦,却能完成复杂的认知任务。而训练一个GPT-4,消耗的功率相当于50万个大脑(按10兆瓦算)。但人脑的"训练"是几十年的学习,且任务不同。如果只比推理,人脑做一道算术题耗能极低,但GPU做大量并行计算效率更高。实际上,人脑的突触运算约10^15 FLOPS(1 PFLOPS),而A100单卡就有312 TFLOPS,算力密度远超大脑。但大脑节能,因为其模拟计算和稀疏性。所以,AI要真正像人一样高效,还得从架构上学习大脑。
为什么AI烧钱?显卡只是冰山一角
显卡成本:一张A100约1万美元,2.5万张就是2.5亿美元。但这只是采购价,实际数据中心部署还要考虑:机柜、网络(InfiniBand)、散热(液冷或空调)、电力增容、运维人员。另外,训练一次失败重来?成本翻倍。而且,大模型迭代快,硬件很快过时。比如H100已经出来,A100二手价暴跌。所以,大模型是巨头的游戏,小公司只能租用算力,或者用开源小模型。
总结:算力是新时代的石油,但太昂贵。未来在算法优化(如稀疏计算、量化)和硬件进步(如存算一体)下,成本有望降低。但短期内,训练大模型依然"恐怖"。
本文来源:一江山水的随笔
本文地址:https://298.name/post/207.html
主要内容:训练GPT-4需要多少张显卡?大模型算力消耗有多恐怖
版权声明:如无特别注明,转载请注明本文地址!
博主有点懒,啥也没写!
