news 2026/1/9 8:15:36

A100 40G和魔改4090 48G模型训练算力比较

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
A100 40G和魔改4090 48G模型训练算力比较

这篇文章的测试主要针对两个问题:

  1. 魔改4090 48G显存的显卡对比原始的4090 24G显卡算力是否有下降?
  2. 魔改4090 48G显卡对比专业级训练显卡A100 40G,其在模型训练场景到底性能表现如何?

之前比较过3090、4090和5090的算力差异:
使用PyTorch进行显卡AI性能实测
ResNet-50模型实测深度学习场景显卡性能

这里还是使用ResNet-50进行模型训练测试。

A100 40G和4090 48G参数对比

两张显卡的参数规格:

A100 40G4090 48G
架构AmpereAda Lovelace
CUDA核心数6,91216,384
显存容量40GB HBM248 GB GDDR6X
显存带宽1,555 GB/s1,008 GB/s
TDP功耗250W450W
FP32 算力19.5 TFLOPS82.6 TFLOPS
Tensor FP16 算力312 TFLOPS330 TFLOPS
  • 显存方面:4090是魔改后翻倍的48G显存,要大于低版本A100的40G显存,但A100 40G用的HBM2显存,带宽可以接近1.6T/s
  • 算力方面:4090在单精度计算上有绝对的优势,半精度Tensor算力两者接近
  • A100 PCIe版本的功耗做了限制,所以从耗电量上4090会更大

深度学习模型训练测试

在 晨涧云AI算力平台 分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试对比。

A100 40G测试

4090 48G测试

补充之前测试的4090 24G的结果:

4090 24G测试

可以看到魔改48G显存的4090显卡在算力方面并没有折损,并且48G显存提供了更多的BatchSize样本吞吐空间

测试结果解释

使用了FP32和FP16混合训练精度,相比之前3090和4090的测试,因为A100 40G和4090 48G有更大的显存,训练批次在原先的基础上增加了384的BatchSize,看训练吞吐量的差异:

  • 精度FP32表示使用单精度训练,FP16表示使用混合精度训练
  • BatchSize:训练批次大小
  • Samples/s:每秒样本吞吐量
  • VRAM (MB):平均显存使用量
  • GPU Util (%):平均GPU利用率

看在GPU使用率比较高的场景下(BatchSize>=256),模型训练样本的吞吐速度比较;单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%

综合而言,A100作为专业级训练卡在训练场景还是有其优势的,而且A100支持NVLink和MIG;但相比4090的算力差距并不明显,而4090在其他场景,特别是图像处理、3D渲染等也非常能打,再加上魔改的48G显存,目前在中端显卡市场可以说是最全面的存在。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/6 13:18:47

【量子计算开发进阶】:为什么顶尖团队都在用VSCode自动生成Q#文档?

第一章:量子计算开发中的文档自动化趋势随着量子计算从理论研究逐步迈向工程实践,开发流程的复杂性显著上升。传统手动编写技术文档的方式已难以满足快速迭代的需求,文档自动化成为提升开发效率的关键趋势。通过将代码注释、测试用例与构建系…

作者头像 李华
网站建设 2026/1/6 17:50:33

【CentOS7】CentOS 7 编译安装 Python 3.11.9

Python 3.11 pip 无 SSL 模块问题:使用 OpenSSL 3.0.13 重新编译 Python注意:以下操作最好在测试机试验一遍一、问题原因分析(为什么 pip 会缺 SSL?) Python 的 ssl 模块并不是纯 Python 实现,而是&#xf…

作者头像 李华
网站建设 2026/1/9 1:52:22

揭秘MS-720 Teams Agent消息机制:5大关键配置让你避开90%的部署陷阱

第一章:揭秘MS-720 Teams Agent消息机制的核心原理Microsoft Teams Agent(MS-720)作为企业级自动化通信的关键组件,其消息机制建立在事件驱动与微服务架构之上。该机制通过监听 Microsoft Graph 中的用户活动事件,实时…

作者头像 李华
网站建设 2026/1/2 8:58:42

Mac触控条革命:5个必学的BetterTouchTool预设配置技巧

还在让你的Touch Bar默默无闻吗?这个开源项目汇集了众多用户精心制作的Touch Bar配置方案,让你的触控条瞬间变身智能控制中心!无论你是效率追求者还是个性化爱好者,这里都有适合你的完美方案。 【免费下载链接】btt-touchbar-pres…

作者头像 李华