news 2026/7/5 18:58:32

关于GR-RL与PI-0.6的一些想法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
关于GR-RL与PI-0.6的一些想法

原始文章发布在知乎,欢迎移步:《关于GR-RL与PI-0.6的一些想法》

最近学习了字节跳动gr-1/gr-2/gr-3/gr-rl(关于gr-rl:文档1和文档2)系列工作,再结合以前看的pi系列模型或算法,产生了一些想法,想法可能不成熟甚至有错误,仅在此记录总结一下,以便回顾。

1,gr-1/gr-2是基于视频生成的技术路线去设计,核心就是通过未来帧的预测,一方面可以利用海量的视频数据,另一方面可以学习到一些语义和操作的通用知识。而gr-3完全换了路线,切换到了pi0/pi0.5这种基于VLM+action expert(flow matching)的路线上,是否说明在技术路线上前者不如后者呢?

2,两个系列模型发展路线:

pi0->pi0.5->pi0.6(RL)
gr-1->gr-2->gr-3->gr-rl
pi0.5与gr-3,pi0.6与gr-rl这两两之间的思路已经相当接近了,有一种殊途同归的感觉,读相关的技术报告确实可以学习到很多。字节的开源精神再强一些,把相关的代码开源一下,可以让大家复现就更好了。

3,今天详细的阅读了gr-rl论文,它是based在gr-3的基础之上,有一些收获吧:

3.1,通过时序差分(TD)的思想去训练一个critic网络,并且先通过数据离线进行训练,这点和pi0.6中的思路是一样的。离线先训练critic应该可以减少RL整体的训练时间。有些细节不同之处是:pi0.6是训练了一个V函数,而gr-rl训练了一个Q函数,另外gr-rl训练的Q函数输出是一个分布,而不是传统强化学习中的一个值,论文中说分布更加鲁棒。

3.2,策略网络的训练,gr-rl与pi0.6差别比较大,最近也看了一些如何在flow matching基础之上让强化学习去训练它的一些方法,例如:《 ​π RL(piRL)算法支持用强化学习方法训练π 0/π 0.5(pi0/pi0.5)》。其实大家所做的目标只有一个,就是如何将RL与flow matching结合,一句话说核心点:

pi0.6是通过训练好的critic网络生成一个condition去sft监督训练策略网络;
gr-rl不会动已经sft训练好的策略网络,而是对flow matching初始时的那个原始噪声进行了优化,通过一个噪声网络
去预测这个初始噪声,同时也增加了一个Q网络
对噪声策略输出的噪声进行打分。在前向推理的时候,不再从高斯采样,而是让 π_θ′ 根据当前观测直接给出最优噪声 ε,再由冻结的流模型一步(或少量几步)解码成动作。整体上,此方案相当于在flow matching基础之上,找到了一个突破口(初始噪声),在这个突破口上添加了一个外挂,在强化学习中去训练这个外挂,外挂外的其它部分不参与训练。论文中相关的描述如下:

pi0.6/gr-rl/piRL三者的思路有没有优劣之分,目前还不太清楚,后续有时候看一下相关的参考文献或亲自尝试一下。如果各位有相关信息,希望能不吝赐教!
3.3,双buffer的设计类似于:《具身智能hil-serl强化学习算法在lerobot机械臂上复现》中的双buffer。

3.4,通过模仿学习,数据增强,强化学习协同的方式持续提升效果,短期有可能会是一个主流的范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 20:11:20

基于微信小程序的动漫社区交流小程序的设计与实现(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦动漫爱好者交流渠道分散、优质内容聚合不足的痛点,设计实现基于微信小程序的动漫社区交流小程序。依托微信小程序轻量化、易传播的特性,为动漫爱好者搭建便捷的线上交流平台。系统后端搭建稳定的数据管理架构,支撑用户信息…

作者头像 李华
网站建设 2026/7/4 22:34:20

响应格式化踩坑实录:Symfony 8开发者必须避开的5个陷阱

第一章:响应格式化踩坑实录:Symfony 8开发者必须避开的5个陷阱 在 Symfony 8 的开发过程中,响应格式化是构建 RESTful API 的核心环节。然而,许多开发者因忽略细节而陷入常见陷阱,导致性能下降或接口行为异常。 忽视 …

作者头像 李华
网站建设 2026/7/4 18:55:41

PHP 8.6性能监控面板实战(专家级配置全公开)

第一章:PHP 8.6性能监控的核心价值与架构演进 随着现代Web应用对响应速度和系统稳定性的要求不断提升,PHP 8.6在性能优化方面引入了多项底层改进,使得运行时效率显著提升。然而,性能的可观测性依赖于完善的监控体系,因…

作者头像 李华
网站建设 2026/6/26 13:49:44

性能监控在DevOps中的角色

在敏捷开发与持续交付成为主流的今天,DevOps理念已深度重塑软件工程实践。作为质量保障的关键环节,软件测试正从传统的阶段性验证向全流程质量守护演进。性能监控作为贯穿DevOps流水线的"神经系统",正为测试从业者提供前所未有的洞…

作者头像 李华
网站建设 2026/7/5 4:02:24

RN Hooks 设计规范与反模式清单

[toc] 如果你写 RN 写到后面,开始出现下面这些情况: 一个页面引用 5~8 个自定义 Hook一个 Hook 内部 300 行,还不敢拆useEffect 嵌套 useEffect,依赖数组随缘写改一个状态,引发一连串莫名其妙的更新 那问题…

作者头像 李华