news 2026/7/2 13:22:49

pythonstudy Day38

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
pythonstudy Day38

GPU训练及类的call方法

@疏锦行


  1. “剩余时长(ETA)”本身就很难和记录次数线性对应

多数训练脚本的 ETA 计算方式是类似:

用最近若干 step 的平均耗时(滑动平均 / 指数平滑)

或用从 epoch 开始到现在的平均 step 耗时

然后 ETA = avg_step_time * remaining_steps

这种估计会把你“偶尔发生的额外开销”(比如每 N step 做一次 .item()、print、写日志、评估)平均摊薄。
当总 epoch=20000,而你记录次数只有 10/20/100/200 这种量级时,单次记录的开销如果是毫秒级~几十毫秒级,摊到每 step 上可能非常小,最后 ETA 的差异就会被平滑/抹掉,呈现出“差不多都 10 秒”。

  1. .loss.item() / tensor.item() 的同步是“结账式”的:频率越低,不一定越省时

你已经抓到关键:.item() 会把 GPU 上的标量拷回 CPU,而这会 强制同步(CPU 必须等 GPU 把当前队列里的 kernel 都跑完,才能拿到结果)。

但很多人忽略了:同步等待时间不是一个固定常数,而是取决于你同步那一刻 GPU 队列里“欠了多少账”。

记录很频繁(间隔小):你更频繁地“结账”,每次等的可能较短;

记录很不频繁(间隔大):GPU 可以异步跑很久,你以为“没同步所以更快”,但到你下一次 .item() 时,CPU 可能要一次性等更久(把之前积压的队列都跑完)。

所以同步的耗时分布会变成 少量大尖峰 vs 大量小尖峰。
而你记录的“剩余时长”往往是平滑后的平均值,它看到的是:尖峰被摊薄后差不多,自然就“不线性”。

  1. 你的训练瓶颈可能根本不在“记录”上(被其它项主导)

即使 .item() 有同步,整体耗时也常被这些主导:

DataLoader(CPU 解码/增强/IO/num_workers 不够、pin_memory 设置等)

GPU 计算本身(模型/输入大)

CUDA 内存分配/缓存、偶发 GC、日志写盘

进度条刷新(tqdm)、print flush、TensorBoard 写 event

当主耗时项远大于日志开销时,你把记录次数改 10 倍,ETA 也只会轻微波动,看起来“不成比例”。

  1. 你现在这组数差异很小,也可能是测量方式被“异步”骗了

如果你用 time.time() 直接包住训练 step,但 没在合适位置 torch.cuda.synchronize(),那么你测到的“step 用时”可能只是 CPU 发射 kernel 的时间,而不是 GPU 真正执行完的时间。
此时 ETA 的波动会更多来自同步点(比如 .item())的位置与平滑方式,而不是你以为的线性累积。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 0:12:41

大模型Memory模块深度解析:从基础实现到高级应用!

简介 文章详细介绍了大模型Memory模块的设计意义与实现方法,包括不借助LangChain的基础记忆实现、自定义Memory模块开发流程、spacy实体识别的高级应用,以及LangChain中七种内置Memory模块的对比分析。文章还提供了从初阶应用到模型训练的完整学习路径&…

作者头像 李华
网站建设 2026/7/1 18:30:46

53.自定义工作队列传参

这里用到了container_of&#xff0c;可以利用某个成员的地址&#xff0c;顺藤摸瓜拿到拿到整个结构体的地址驱动#include <linux/module.h> #include <linux/init.h> #include <linux/interrupt.h> #include <linux/gpio.h> #include <linux/delay.…

作者头像 李华
网站建设 2026/7/1 2:29:02

安全VR:靠谱的VR安全体验馆厂商品牌榜,技术实力与落地案例

安全VR&#xff1a;靠谱的VR安全体验馆厂商品牌榜&#xff0c;技术实力与落地案例开篇总起在安全培训领域&#xff0c;数字化转型需求迫切&#xff0c;传统培训方式效果欠佳。安全VR体验馆凭借高度还原场景、沉浸式体验等优势&#xff0c;成为提升安全培训效果的有效手段。但市…

作者头像 李华
网站建设 2026/7/1 17:35:21

灵遁者:我对于探索的热爱,从来没有减少过

我对于探索的热爱&#xff0c;从来没有减少过。探索生命&#xff0c;这是自人类诞生以来&#xff0c;一直在拼命解读的课题。所以关于生命&#xff0c;我们思考得再多&#xff0c;也远远不够。 灵遁者&#xff0c;赞3这是一个需要创新的时代&#xff0c;但更是一个需要“消化”…

作者头像 李华
网站建设 2026/7/1 1:30:44

右值引用和移动语义

作用&#xff1a;C11中引用了右值引用和移动语义&#xff0c;可以避免无谓的复制&#xff0c;提高了程序性能。 1. 什么是左值、右值 可以从2个角度判断&#xff1a; 左值可以取地址、位于等号左边&#xff1b; 而右值没法取地址&#xff0c;位于等号右边。 int a 6; a可…

作者头像 李华
网站建设 2026/7/1 20:19:30

基于PLC的智能路灯控制系统的设计

第二章 传感器原理及应用 基于路灯照明的特点&#xff0c;我们需要通过采集周围光照强度及地面压力信号&#xff0c;来完成所需的智能路灯控制的功能&#xff0c;因此本章分别对光学传感器及压力传感器进行了详细的介绍。 2.1 光学传感器 2.1.1 光电效应简介 首先&#xff0c;我…

作者头像 李华