【论文自动阅读】GREAT MARCH 100：100项细节导向任务用于评估具身AI agent-育师

快速了解部分

基础信息（英文）：

1.题目: THE GREAT MARCH 100:100 DETAIL-ORIENTED TASKS FOR EVALUATING EMBODIED AI AGENTS
2.时间: 2026.01
3.机构: ISJTU, SII, RHOS.ai, Robbyant, Antgroup
4.3个英文关键词: Robot Learning, Task Design, Evaluation Benchmark

1句话通俗总结本文干了什么事情

本文提出了一个名为“Great March 100 (GM-100)”的机器人学习评测基准，包含100个精心设计的、涵盖长尾行为的任务，旨在解决现有评测任务过于单一、无法全面评估机器人智能水平的问题。

研究痛点：现有研究不足 / 要解决的具体问题

现有的机器人任务数据集和评测标准往往只关注“拿起并握住”等常见高频任务，缺乏对复杂、罕见的“长尾任务”的覆盖，导致模型存在严重偏差，且难以在不同方法间进行公平、全面的性能区分。

核心方法：关键技术、模型或研究设计（简要）

利用大语言模型（Qwen3）结合人类物体交互原语（HOI）和物体可供性（Affordance）自动生成候选任务，再通过LLM与人类专家混合筛选，最终构建了包含100个高挑战性任务的基准数据集，并在真实机器人平台上收集了1.3万条轨迹数据进行验证。

深入了解部分

相比前人创新在哪里

视角转变：不依赖人类主观的实用性判断，而是基于物理常识和低级操作知识（How-level affordance）来生成任务。
长尾覆盖：专门针对现有数据集中缺失的复杂、罕见行为进行系统性设计，增加了任务的多样性和挑战性。
社区驱动：不追求绝对中心化的物理测试环境，而是建立开源平台，鼓励社区上传结果和视频证据，通过集体监督进行长期评估。

解决方法/算法的通俗解释

本文并不是提出一个新算法，而是建立了一个“机器人奥运会”的比赛项目库。它利用AI（Qwen3）学习人类如何与物体互动的原理，自动脑暴出各种各样的任务（比如“把垃圾扔进垃圾桶”），然后通过AI和专家筛选出最难、最能考验机器人能力的100个任务作为标准考题。

解决方法的具体做法

数据收集与分析：分析现有任务（如Agibot, Open X-Embodiment），去除重复项，发现任务多集中在“抓取”等常见动词。
任务生成：利用Qwen3模型，输入人类交互原语（如“切”、“倒”），让模型列举相关物体并生成具体任务描述。
筛选与优化：先用LLM自动评分机器人的可执行性，再由5位人类专家进行最终筛选，确保任务在现有硬件下可行且适合遥操作收集数据。
数据集构建：在Agilex Cobot Magic和Dobot Xtrainer两个平台上收集了超过1.3万条轨迹数据。

基于前人的哪些方法

基于人类物体交互研究（如HAKE、PaStaNet、OCL）中的交互原语和物体可供性概念，以及前人的任务列表（如Agibot和π 0 .5 \pi_0.5π0.5的评测任务）作为基础进行扩展和语义分析。

实验设置、数据、评估方式、结论

实验设置：使用Agilex Cobot Magic（双臂移动平台）和Dobot Xtrainer（双臂固定平台）。
数据：收集了13,000多条遥操作轨迹，每个任务包含100条训练轨迹和30条固定测试轨迹。
评估方式：
- 成功率 (SR)：任务完全完成的比例。
- 部分成功率 (PSR)：子任务完成的比例（针对复杂任务）。
- 动作预测误差：预测动作与真实动作的均方误差（MSE）。
结论：GM-100任务具有可行性但极具挑战性，能有效区分不同VLA模型（如Diffusion Policy,π 0 \pi_0π0,π 0 .5 \pi_0.5π0.5）的性能。实验显示π 0 .5 \pi_0.5π0.5在动作预测精度和物理任务成功率上均表现最佳。

提到的同类工作

Open X-Embodiment, Agibot, BridgeData V2, RH20T, DROID, RoboCOIN, RoboMIND, RT-2, OpenVLA, GR00T。

和本文相关性最高的3个文献

HAKE(Yong-Lu Li et al.): 提供了人类活动知识引擎，是本文任务生成中交互原语的重要来源。
Agibot(Qingwen Bu et al.): 作为现有的大规模操作数据集，是本文进行任务设计对比和分析的基础之一。
π 0 .5 \pi_0.5π0.5(Physical Intelligence et al.): 本文将其作为基线模型之一，同时也是任务设计参考的来源之一。

Kook Zimage 真实幻想 Turbo效果展示：惊艳幻想风格作品集

Kook Zimage 真实幻想 Turbo效果展示：惊艳幻想风格作品集 1. 为什么说“真实幻想”不是噱头，而是可触摸的视觉体验你有没有试过这样描述一张图：“月光下的银发少女站在浮空花园里，裙摆飘动如星尘，身后是半透明水晶蝶…

李华

实时控制系统设计

1、非修改序列算法这些算法不会改变它们所操作的容器中的元素。 1.1 find 和 find_if find(begin, end, value)：查找第一个等于 value 的元素，返回迭代器（未找到返回 end）。find_if(begin, end, predicate)：查找第…

李华

WAN2.2文生视频效果展示：中文提示词生成的惊艳视频案例

WAN2.2文生视频效果展示：中文提示词生成的惊艳视频案例你有没有试过这样输入一句话：“一只橘猫戴着草帽，在夏日阳台的藤椅上打盹，微风轻轻吹动窗帘，阳光在它胡须上跳动”——然后几秒钟后，一段3秒高清视频…

李华

一键部署MGeo镜像，快速搞定中文地址匹配

一键部署MGeo镜像，快速搞定中文地址匹配 1. 引言：为什么你需要一个“懂中文地址”的模型？ 你有没有遇到过这样的问题—— 用户填的收货地址是“杭州西湖边那家网红咖啡馆”，系统却找不到对应门店； 物流单上写着“上海…

李华

2026年降AI工具红黑榜：嘎嘎降AI凭什么排第一？

2026年降AI工具红黑榜：嘎嘎降AI凭什么排第一？ 试了7款降AI工具，花了将近300块。最便宜的那个让我论文变成了机器翻译风格，最贵的那个效果也就那样。最后用嘎嘎降AI一次搞定，花了不到50块。先说结论：2026…

李华

MGeo避坑指南：部署常见问题与解决方案汇总

MGeo避坑指南：部署常见问题与解决方案汇总 1. 引言：为什么需要一份“避坑指南”？ 你已经看过不少MGeo的入门教程，也成功跑通了第一个地址相似度测试——但当真正把它接入业务系统时，却发现事情没那么简单。显存突然…

李华