news 2026/6/22 19:34:10

some 知识点 knowledge

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
some 知识点 knowledge

输出 查看模型结构 使用print(model) model.name_module() model.named_parameters()等方式查看层级结构

对于vit reanet yolox等常见架构 结合官方文档和源吗

确定可冻结/可训练的模块 在vit中 可以冻结 patch_embed 和前几层blocks 只微调后面几层+分类头

通过requires_grad控制梯度更新 冻结backbone 解冻特定层

微调的时候 不同模块用不同的学习率

还有的是在不同的epoch使用不同的学习率

学习率调度知识点:

按epoch变化 step decay 阶梯衰减 每隔固定epoch 学习率*一个衰减因子

多阶段衰减,在预设的epoch节点 衰减

linear warmup_decay 线性预热+衰减 前几个epoch线性增加 learning rate 之后按照step/cosine衰减

啥是cosine decay?余弦衰减 学习率就像余弦的图像一样衰减下来

关于早停机制、保存最佳模型、最终模型是否最优

在深度学习训练中,训练loss会持续下降,但是验证指标(比如准确率 mAp f1 )往往会线上升后下降 这就是过拟合

F1的计算就是:

不能只是保存最后的checkpoint 而是要监控验证指标,保存历史最佳

最好的标准是自己决定的:你所关心的指标达到最优就是 最好

早停机制 :当模型在验证集上不再变好时,提前终止训练, 在每个epoch 或者是n个step 在验证集上评估指标 如果连续 m个epoch没有提升,就停止训练

让我想起了一个叫做优化器的东西。

optimizer = torch.optim.AdamW(
model.parameters(),#model.parameters这些参数是需要被更新的
lr=5e-5,#学习率
weight_decay=0.05,#衰减
betas=(0.9, 0.98) # ViT 常用 beta1=0.9 当前梯度占0.1 过去梯度占0.9 beta2=0.98梯度平方的平滑,控制步长缩放,防止某些参数更新太猛

scheduler = get_cosine_schedule_with_warmup(
optimizer,
num_warmup_steps=500,#学习率这样持续500个step 注意step和epoch的区别 训练一次就能看出来了 epoch是多个step
num_training_steps=total_steps
)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 17:59:05

Gson和Jackson是怎么解决泛型实例化的?源码级剖析告诉你答案

第一章:泛型的实例化泛型的实例化是编程语言中实现类型安全与代码复用的核心机制之一。通过泛型,开发者可以编写不依赖具体类型的通用结构或函数,并在使用时指定实际类型参数,从而在编译期获得类型检查的优势。泛型实例化的语法结…

作者头像 李华
网站建设 2026/6/10 19:44:08

重新发现深圳,找个咖啡/羽毛球搭子一起探索城市的AB面

在深圳这座城市藏着太多惊喜 —— 既有 CBD 的潮酷天际线,也有城中村的烟火小巷;既能沉浸式玩咖啡拉花,也能酣畅打一场羽毛球。想解锁这份精彩,找个合拍搭子就够了,让深圳探索之旅更安心有趣。雨欣一直想体验咖啡拉花&…

作者头像 李华
网站建设 2026/6/22 17:33:45

请求拦截不再难,Symfony 8拦截器实现原理与最佳实践全解析

第一章:请求拦截不再难,Symfony 8拦截器实现原理与最佳实践全解析在现代 Web 应用开发中,对 HTTP 请求进行统一处理是构建高可维护性系统的关键环节。Symfony 8 通过事件监听机制和中间件式设计,提供了灵活而强大的请求拦截能力&a…

作者头像 李华
网站建设 2026/6/23 6:47:02

RAG文本分块策略:优化LLM的知识访问效率

分块并非简单的预处理步骤,而是RAG流水线的核心支柱。优质文本块是有意义、独立完整的知识单元,而劣质文本块只是会误导LLM的孤立碎片。在检索增强生成(RAG)系统中,若说检索模块是搜索引擎,那么分块&#x…

作者头像 李华
网站建设 2026/6/23 19:06:15

桌面那么点大,性能它偏要狂

AI 基建遍地开花,内存带宽“饭量”暴增,可传统产能却在偷偷“减肥”。于是 DRAM 价格一路高歌——“涨”声响起,根本停不下来!科技巨头们囤货如囤年货,闪存和内存条顿时成了超市里的限量薯片,货架越来越空。…

作者头像 李华
网站建设 2026/6/23 19:08:38

基于51单片机的智能水表系统设计

基于51单片机的智能水表系统设计 一、系统设计背景与需求分析 传统机械水表依赖人工抄表,存在效率低下、数据误差大、抄表周期长等问题,尤其在高层住宅、老旧小区中,人工入户抄表不仅耗费人力,还易引发用户隐私纠纷。此外&#xf…

作者头像 李华