Summary
Gemini Robotics 1.5
- 核心: 多 embodiment VLA + embodied reasoning VLM 组成 agentic robot 系统,引入 Motion Transfer 和 Thinking VLA
- 方法: Motion Transfer (MT) 训练范式实现跨 embodiment 技能迁移;VLA 生成多层级 thinking traces 后再出动作;GR-ER 1.5 作为 orchestrator 配合 GR 1.5 作为 action model
- 结果: 跨 3 种机器人 (ALOHA, Bi-arm Franka, Apollo) 零样本技能迁移;Thinking VLA 在多步任务上大幅提升;GR-ER 1.5 在 15 个 embodied reasoning benchmark 上 SOTA
- Sources: paper | website | github
- Rating: 2 - Frontier(VLA cross-embodiment + thinking 的 SOTA 代表工作之一,但 MT 机制不透明且 VLA 权重不开放,限制其作为 Foundation 的社区影响力)
Key Takeaways:
- Motion Transfer (MT): 新的模型架构和训练范式使 VLA 能从异构多 embodiment 数据中学习,实现跨机器人形态的零样本技能迁移(ALOHA/Franka/Apollo 之间互相迁移)
- Thinking VLA: VLA 在输出动作前生成多层级自然语言 thinking traces(任务分解 → 下一步预测 → 运动描述),显著提升多步任务的成功率和可解释性
- Agentic 架构: GR-ER 1.5 (VLM orchestrator) + GR 1.5 (VLA action model) 组成 agentic system,支持工具调用、长周期规划和错误恢复,在 8 个长周期任务上 progress score 接近 80%
Teaser. GR 1.5 系统概览:GR-ER 1.5 作为 orchestrator 进行高层推理和规划,GR 1.5 作为 action model 将指令转化为跨 embodiment 的动作执行。
Method Overview
Model & Architecture
GR 1.5 model family 包含两个互补模型:
- Gemini Robotics 1.5 (GR 1.5): VLA 模型,将中短周期语言指令翻译为机器人动作。支持 open-vocabulary 指令,能在 action 前进行推理,能原生控制多种 embodiment(ALOHA, Bi-arm Franka, Apollo humanoid)
- Gemini Robotics-ER 1.5 (GR-ER 1.5): VLM,optimized for embodied reasoning——任务规划、空间推理、进度估计。支持 native tool calling(Search、代码执行、function calling)
Agentic System Architecture 由 orchestrator + action model 组成:
- Orchestrator (GR-ER 1.5): 处理用户输入和环境反馈,将复杂任务分解为 VLA 可执行的简单步骤,执行 success detection 决定何时切换步骤,可调用数字工具获取外部信息
- Action model (GR 1.5): 将 orchestrator 下发的自然语言指令转化为低层机器人动作,作为 orchestrator 的 specialized tool
Embodied Thinking
Embodied Thinking 贯穿 VLM 和 VLA 两个模型:
- GR-ER 1.5: 利用 Gemini 的 thinking 能力进行高层规划,将复杂任务拆解为粗粒度计划,自适应更新计划,或调用外部工具
- GR 1.5 (Thinking VLA): VLA 在指令和感知基础上生成自然语言 thinking traces,append 到 context window 后再输出动作。多层级思考包括:
- 任务分解:“将复杂指令拆为短周期子任务”
- 下一步预测:“pick up the rain jacket from the wardrobe”
- 运动描述:“move the gripper to the left”
Motion Transfer (MT)
新的模型架构和训练范式,使模型能从不同机器人和数据源中学习,形成对运动和物理交互效果的统一理解。训练数据包含 ALOHA、Bi-arm Franka 和 Apollo humanoid 的多 embodiment 数据,以及公开可用的文本、图像和视频数据集。
Gemini Robotics 1.5 is a general multi-embodiment Vision-Language-Action Model
全面评估基于 230 个任务的 benchmark,覆盖所有 embodiment,报告 progress score(0-1 的连续指标)。
Generalization
GR 1.5 在四类泛化维度上全面超越 Gemini Robotics 和 Gemini Robotics On-Device (GRoD):
- Visual Generalization: 对背景、光照、干扰物、纹理变化的鲁棒性
- Instruction Generalization: 对同义改写、拼写错误、多语言、不同详细程度的指令理解
- Action Generalization: 对新初始条件、新物体实例的运动适应
- Task Generalization: 在全新环境中执行全新任务——同时需要以上三种能力
Motion Transfer Ablation
消融实验建立两个 baseline:单 embodiment 数据训练(无 MT)和多 embodiment 数据训练(无 MT)。结果表明:
- 多 embodiment 数据本身能提升性能
- MT 训练范式进一步放大了跨 embodiment 数据的正向迁移效果
- 对 Bi-arm Franka(中等数据量)效果最显著;对 humanoid(数据稀缺、embodiment gap 最大)MT 效果相对较弱
Learning across different robot embodiments
GR 1.5 展现了零样本跨 embodiment 技能迁移:ALOHA 上只有 Franka 数据训练的任务也能完成,反之亦然。Humanoid 也能执行仅在其他 embodiment 数据中出现的技能,尽管其形态差异更大。
Video. 跨 embodiment 技能迁移演示
Thinking Helps Acting
Thinking 模式在多步任务上带来显著提升。性能增益来自两步分解:
- 先将复杂多步语言指令转化为具体的短周期子任务(利用 VLM backbone 的语言-视觉能力)
- 再将低层语言命令映射为动作(更简单的映射)
附加优势:
- 可解释性: 可视化 thinking traces 来检查计划和预测下一步
- 隐式 success detection: 模型自动感知子任务完成并切换目标
- 错误恢复: 抓取失败时自动重新规划(如瓶子滑落后立即生成 “用左手捡起”)
Gemini Robotics-ER 1.5 is a generalist embodied reasoning model
Generality
GR-ER 1.5 是 generalist embodied reasoning model:在保持 frontier model 的广泛能力(MMMU, GPQA, Aider Polyglot)的同时,在 embodied reasoning 上达到 SOTA。在 generality vs embodied reasoning 的 Pareto frontier 上,GR-ER 1.5 (Thinking On) 扩展了边界。
Frontier capabilities for Embodied Reasoning
Complex Pointing: 将 pointing 与推理结合。GR-ER 1.5 在 5 个学术 benchmark(Point-Bench, RefSpatial, RoboSpatial, Where2Place, PixMo Count)上 SOTA,尤其擅长需要物理、空间和语义约束推理的复杂 pointing 任务。
Video. GR-ER 1.5 的多种 embodied reasoning 能力
Progress Understanding and Success Detection: GR-ER 1.5 能预测任务完成百分比、多视角 success detection、视频帧排序。在 real-time 和 offline、multiview 和 singleview 四种 success detection 设置下均表现强劲。
Real-World Robotic Use Cases: 在 Trusted Tester 提供的真实场景 benchmark 上(inventory shelf inspection、in-the-wild 目标检测和 pointing),GR-ER 1.5 优于 GR-ER 和其他 SOTA 多模态模型。
Thinking
Thinking 对 embodied reasoning 的效果:
- GR-ER 1.5 的性能随 thinking token budget 增长而提升
- 最优 thinking 量因任务而异:image/video QA 从更长的 thinking traces 中受益更多,pointing 需要较少
- GR-ER 1.5 能自动调节不同任务的 thinking token 数量
- 相比 Gemini 2.5 Flash,GR-ER 1.5 在 inference-time compute 上的 scaling 更好——说明强 thinking 能力不一定转化为有效的 embodied reasoning
Gemini Robotics 1.5: A Physical Agent
将 GR-ER 1.5 + GR 1.5 组合为完整 agentic system,在 8 个长周期任务上评估(ALOHA 和 Bi-arm Franka),任务涵盖工具调用、记忆、规划和灵巧操作。
三个配置对比:
- GR 1.5 (Thinking On): 单独的 Thinking VLA
- Agentic (Gemini 2.5 Flash + GR 1.5): 通用 VLM 作 orchestrator
- Agentic (GR-ER 1.5 + GR 1.5): 完整的 GR 1.5 Agent
结果:GR 1.5 Agent 在所有任务上一致且显著优于其他两个配置。Thinking VLA 单独最高约 44% progress score,而 GR 1.5 Agent 常接近 80%。对复杂任务,GR 1.5 Agent 比 Gemini 2.5 Flash orchestrator 的 progress score 接近翻倍。
Video. GR 1.5 agentic 能力演示
Table 1. Long-horizon 评估的失败模式分析
| Subtask failure modes | Agent (Gemini 2.5 Flash as orchestrator) | Agent (GR-ER 1.5 as orchestrator) |
|---|---|---|
| Planning | 25.5% | 9% |
| Success detection | 6% | 4% |
| Action | 13% | 9% |
| Total failure rates | 44.5% | 22% |
Insights: GR-ER 1.5 作为 orchestrator 在所有失败类别上均优于 Gemini 2.5 Flash,最大的提升来自 task-planning(25.5% → 9%)。说明通用 VLM 即使配合先进 VLA 也无法可靠完成长周期任务——embodied reasoning 专门化的 orchestrator 是关键。
Responsible Development and Safety
多层安全机制:
- Safe Human-Robot Dialog: 继承 Gemini Safety Policies,对抗测试显示对有害内容有强 compliance
- Semantic Action Safety: ASIMOV-2.0 benchmark 升级版——改进覆盖率、新增视频模态和物理约束相关的 embodied reasoning 任务。GR-ER 1.5 在 ASIMOV-2.0 上优于 GR-ER
- Auto-Red-Teaming (ART): 三模型博弈框架(Attacker + Target + AutoRater),自动发现 ER 模型的幻觉和安全漏洞。验证了 (1) Thinking 增强鲁棒性 (2) AutoRater 可靠纠错 (3) ART 数据可缓解幻觉
关联工作
基于
- Gemini Robotics: GR 1.5 的前代,建立了 VLA + embodied reasoning 的基础框架
- Gemini 2.5: GR 1.5 family 构建在最新一代 Gemini 之上
对比
- Gemini Robotics On-Device (GRoD): 前代 on-device VLA,作为 Franka 和 Apollo 上的 baseline
- Gemini 2.5 Flash: 作为通用 VLM orchestrator baseline,证明专门化 ER 模型的必要性
- GPT-5 / GPT-5-mini: 在 embodied reasoning benchmark 上的 frontier 对比
方法相关
- ASIMOV benchmark: 机器人语义安全评估,GR 1.5 同步发布 ASIMOV-2.0 升级版
论文点评
Strengths
- Cross-embodiment 迁移的实证突破: 首次在 3 种形态差异较大的机器人(双臂桌面、双臂固定、humanoid)之间展示可靠的零样本技能迁移,且有量化 benchmark 支撑
- Thinking VLA 设计巧妙: 将复杂指令到动作的 end-to-end 映射分解为”语言思考 + 简单动作映射”两步,既利用了 VLM backbone 的语言能力,又降低了 action mapping 的难度
- 完整的 agentic stack 评估: 不仅单独评估各模块,还在 8 个长周期多步任务上做了端到端 ablation(VLA alone vs generic VLM orchestrator vs specialized ER orchestrator),证明了 embodied reasoning orchestrator 的不可替代性
- 安全研究与模型开发同步: ASIMOV-2.0 benchmark 和 Auto-Red-Teaming 框架是 safety 领域的实质性贡献
Weaknesses
- Dexterity 未提升: 论文坦承 GR 1.5 虽然泛化性大幅提升,但灵巧操作能力与前代持平——说明 MT 范式主要在”广度”而非”精度”上有收益
- MT 机制不透明: Motion Transfer 被称为”新架构和训练范式”,但具体做了什么(统一 action space?latent alignment?auxiliary loss?)完全未披露,无法评估其 scalability 和局限
- GR 1.5 VLA 不可用: VLA 模型仅对 select partners 开放,不公开可用,严重限制了 reproducibility 和社区验证
- Humanoid 数据稀缺导致 MT 效果受限: 论文自身承认 MT 对 humanoid 效果较弱(embodiment gap 太大),但未深入分析原因或提出解决方向
可信评估
Artifact 可获取性
- 代码: inference+train(Safari SDK 提供完整工具链:checkpoint access、serving、evaluation、data upload、finetuning)
- 模型权重: GR-ER 1.5 通过 Gemini API 在 Google AI Studio 可用;GR 1.5 VLA 仅限 Trusted Tester;Gemini Robotics On Device 从 SDK v2.4.1 可用
- 训练细节: 仅高层描述——提到使用 ALOHA/Franka/Apollo 多 embodiment 数据 + 公开文本/图像/视频数据,但未披露具体数据配比、训练步数、超参数
- 数据集: 私有(多 embodiment robot data 未公开;公开数据的使用比例未说明)
Claim 可验证性
- ✅ GR-ER 1.5 在 15 个学术 benchmark 上 SOTA:使用公开 benchmark,且对比了 GPT-5、Gemini 2.5 等强 baseline
- ✅ Cross-embodiment 零样本迁移:有量化 benchmark + 定性视频演示
- ⚠️ GR 1.5 在 230 任务 benchmark 上超越前代:benchmark 为内部定义,非公开标准,无法独立复现
- ⚠️ “Thinking” 带来的性能提升:bar chart 显示明确提升,但具体 thinking trace 内容的质量和 failure cases 未系统分析
- ❌ “A milestone towards solving AGI in the physical world”:营销话术,无可操作定义
Notes
Rating
Metrics (as of 2026-04-24): citation=40, influential=8 (20.0%), velocity=5.97/mo; HF upvotes=N/A; github 576⭐ / forks=51 / 90d commits=4 / pushed 10d ago
分数:2 - Frontier 理由:GR 1.5 是当前 cross-embodiment VLA + embodied-thinking 方向的 SOTA 代表工作之一,GR-ER 1.5 在 15 个 embodied reasoning benchmark 上刷新纪录,是后续工作必须比较的 baseline(符合 Frontier 标准)。但未能升为 Foundation:MT 机制未披露细节(见 Weakness 2)、VLA 权重仅限 Trusted Tester(见 Weakness 3),社区无法独立复现或在其基础上迭代;与开源且已被广泛采纳的 Pi0 / OpenVLA 等 Foundation 级工作相比,其对社区知识生产的贡献受限。2026-04 复核:cite=40/inf=8 (20.0%)/vel=5.97/mo——influential/total=20% 明显高于 rubric “典型 ~10%“,接近 π0 (19%) 的高继承形态;SDK 仓库仍在 active(pushed 10d ago)但 star 数 (576) 受限于 VLA 未开放;保留 2,升 3 需等核心 VLA 权重开放或跨 embodiment 工作系统引用其 MT framing 而非仅作 performance baseline 对比。