Summary
Gemini Robotics ER 1.6
- 核心: 面向机器人的 embodied reasoning 模型,推理与控制解耦
- 方法: Pointing-based spatial reasoning + multi-view success detection + agentic vision (视觉推理 + code execution)
- 结果: Instrument reading 93% (vs ER 1.5 23%);ASIMOV safety +6%/+10% over Flash
- Sources: website | github
- Rating: 2 - Frontier(产品 blog,工程意义大但信息密度有限且缺乏跨家族横向对比)
Key Takeaways:
- Reasoning-first 架构定位:ER 1.6 不直接输出动作,而是作为机器人系统的高层推理组件,通过 native tool-calling 调用 VLA 模型、Google Search、第三方函数,验证了 embodied reasoning 与底层控制解耦的路线
- Agentic vision 是核心差异化:模型不是 one-shot 推理,而是迭代式地 zoom in → pointing → code execution → 解释,将 instrument reading 从 86%(无 agentic vision)提升到 93%
- 工业部署信号:与 Boston Dynamics 合作将 Spot 与 ER 1.6 结合用于设施巡检,是 embodied reasoning 进入真实工业场景的标志性案例
Teaser. Benchmark results: ER 1.6 consistently outperforms ER 1.5 and Gemini 3.0 Flash across all four evaluation tasks.
Pointing: The foundation of spatial reasoning
Pointing 是 ER 模型的基础空间推理能力,用途覆盖四个维度:
- Spatial reasoning:精确物体检测与计数
- Relational logic:比较推理(如识别集合中最小的物品)、定义 from-to 关系(如移动 X 到位置 Y)
- Motion reasoning:轨迹映射与最优抓取点识别
- Constraint compliance:复杂约束推理(如”指出所有能放进蓝色杯子的物体”)
ER 1.6 的关键改进在于将 points 作为中间推理步骤——例如先用 pointing 计数,再用 pointing 定位显著点辅助数学运算,从而提升度量估计精度。
Figure 2. Pointing 对比:ER 1.6 正确识别工具数量并避免幻觉不存在的物体。
对比细节:ER 1.6 正确识别锤子 (2)、剪刀 (1)、刷子 (1)、钳子 (6),且对图中不存在的物品(独轮车、Ryobi 电钻)不输出 point。ER 1.5 则错判锤子和刷子数量、遗漏剪刀、幻觉出独轮车。Gemini 3.0 Flash 接近 ER 1.6 但在钳子上不够精确。
Success Detection: The engine of autonomy
Success detection 被定义为”自主性的引擎”——它使 agent 能在 retry 和 proceed to next step 之间智能决策。
挑战在于:
- 需要 sophisticated perception + reasoning + broad world knowledge
- 实际机器人部署涉及多视角相机流(overhead + wrist-mounted)
- 需处理遮挡、低光照、模糊指令等复杂因素
ER 1.6 的核心进展是 multi-view reasoning——理解不同视角如何在每个时刻和跨时间序列中组合成连贯画面。
Video 1. Multi-view success detection:ER 1.6 综合 overhead 和 wrist camera 判断”put the blue pen into the black pen holder”任务完成。
Instrument reading: Real-world visual reasoning
Instrument reading 是 ER 1.6 新解锁的能力,源于与 Boston Dynamics 在设施巡检上的合作需求。工业设施中大量仪表(温度计、压力表、化学液位计等)需要持续监控,Boston Dynamics 的 Spot 机器人负责巡检并拍摄仪表图像。
Video 2. Boston Dynamics Spot 使用 Gemini Robotics-ER 进行设施仪表巡检。
仪表读数的难点:
- 需精确感知多种输入(指针、液位、容器边界、刻度线)并理解它们的相互关系
- Sight glass 需估算液体填充比例,同时考虑相机视角的透视畸变
- Gauge 上的文字需读取并解释单位,多指针需理解不同精度并组合
ER 1.6 通过 agentic vision 实现高精度读数:视觉推理 + 代码执行的组合。模型执行中间步骤:先 zoom in 获取细节 → 用 pointing 和代码估算比例和间隔 → 应用世界知识解释含义。
Figure 3. Instrument reading 各组件对性能的贡献。
各模型 instrument reading 成功率:ER 1.5 23% → Gemini 3.0 Flash 67% → ER 1.6 86% → ER 1.6 w/ agentic vision 93%。Agentic vision 带来了额外 7% 的提升,但更关键的是 ER 1.6 base 本身相对 ER 1.5 的 63% 绝对提升。
Video 3. Agentic vision demo:模型使用 pointing 和代码执行 zoom in 并导出 sub-tick 精度的 gauge 读数。
Our safest robotics model yet
安全性集成在模型的每一层。ER 1.6 在以下维度展示了改进:
- Adversarial spatial reasoning:在对抗性空间推理任务上,ER 1.6 对 Gemini safety policies 的合规性优于所有前代模型
- Physical safety constraints:通过 pointing 等空间输出,模型在 gripper 或材料约束下做出更安全的决策(如”不处理液体”、“不拾取超过 20kg 的物体”)
- ASIMOV benchmark:在基于真实伤害报告的文本和视频场景中识别安全风险,ER 模型相比 Gemini 3.0 Flash 在文本上 +6%,视频上 +10%
Figure 4. ASIMOV Safety Instruction Following:ER 1.6 在物理安全约束遵循上大幅超越 ER 1.5,在 pointing 准确率上超越 Gemini 3.0 Flash。
关联工作
基于
- Gemini Robotics (2503.20020): ER 1.6 的前代模型,首次提出 Gemini Robotics 和 Gemini Robotics-ER 架构
- Gemini Robotics-ER 1.5: 直接前代版本
- Gemini 3.0 Flash: base VLM,ER 1.6 在其基础上增强 embodied reasoning 能力
对比
- Gemini Robotics-ER 1.5: pointing/counting、success detection、instrument reading 全面对比
- Gemini 3.0 Flash: 作为 baseline VLM 对比
方法相关
- Agentic vision: 视觉推理 + 代码执行的组合范式,ER 1.6 的核心差异化技术
- ASIMOV benchmark v2: 基于真实伤害报告的机器人安全评估基准
论文点评
Strengths
- Embodied reasoning 作为独立层的验证:ER 1.6 清晰定位为 high-level reasoning module,通过 tool-calling 调用 VLA / Search / 第三方函数,验证了推理与控制解耦的架构路线。这比端到端 VLA 更模块化、更易调试和升级
- Agentic vision 范式:不是 one-shot visual QA,而是让模型像人一样”看了再看、算了再算”。93% vs 23% 的仪表读数提升证明 agentic loop 在视觉推理上价值巨大,这一范式可能对其他精细视觉任务也有启发
- 工业落地信号:与 Boston Dynamics Spot 的合作不是 demo 级别——仪表读数是真实的工业需求,且博文提供了 API 和 Colab,说明已进入开发者可用阶段
- 安全性不是附加项:ASIMOV benchmark 上的系统性评估以及 physical constraint compliance 的改进,说明安全性是 training 目标之一而非 post-hoc 贴片
Weaknesses
- 缺乏横向对比:所有 benchmark 只对比自家模型(ER 1.5、Gemini 3.0 Flash),没有与 GPT-4o、Claude 等在 spatial reasoning 上的对比,无法判断绝对竞争力
- Benchmark 不透明:pointing/counting、success detection、instrument reading 的评估集大小和构成未披露,无法评估统计显著性
- Multi-view success detection 泛化存疑:demo 场景(桌面物体操作)相对受控,对工业环境中遮挡严重、光照变化大的场景是否鲁棒未知
- Blog 信息密度有限:作为产品发布 blog 而非技术报告,缺少训练细节、数据构成、模型架构变化等关键信息,难以深入分析 ER 1.6 相对 ER 1.5 的具体改进来源
- Agentic vision 的延迟成本未讨论:zoom + pointing + code execution 的多步推理必然增加延迟,对实时机器人控制的影响是什么?
可信评估
Artifact 可获取性
- 代码: inference-only(Safari SDK 需 Trusted Tester Program;公开可用的是 Gemini API + Colab notebook 示例)
- 模型权重: gemini-robotics-er-1.6-preview(通过 Gemini API 调用,不提供权重下载)
- 训练细节: 未披露(仅提及基于 Gemini 系列的 targeted training)
- 数据集: 未披露
Claim 可验证性
- ✅ Instrument reading 93% 成功率:博文明确给出了四个模型的对比数字和 agentic vision 的增量贡献,bar chart 可读
- ⚠️ “Unprecedented precision” / “new level of autonomy”:marketing 修辞,缺乏与非 Google 模型的对比 grounding
- ⚠️ Pointing/counting 和 success detection 的优势:有 bar chart 但评估集规模和构成未披露,统计显著性不明
- ⚠️ “Safest robotics model yet”:ASIMOV benchmark 数字有据(+6%/+10%),但仅与 Gemini 3.0 Flash 比较,“yet” 的范围仅限自家模型
- ❌ “Unprecedented precision”:没有给出在任何公开 benchmark 上的排名,无法验证 “unprecedented”
Notes
Rating
Metrics (as of 2026-04-24): citation=N/A (non-arxiv release), influential=N/A, velocity=N/A; HF upvotes=N/A; github 576⭐ / forks=51 / 90d commits=4 / pushed 10d ago
分数:2 - Frontier 理由:ER 1.6 是 embodied reasoning 方向当前的重要前沿参考——agentic vision + tool-calling 的范式(Strengths 1-2)和 Boston Dynamics 工业部署信号(Strength 3)使它成为讨论 “reasoning 与 control 解耦” 路线时绕不开的 datapoint;但作为产品 blog,训练细节和数据未披露、缺乏跨家族横向对比(Weaknesses 1-2、4),信息密度不足以成为 Foundation 级别的奠基工作,也尚未形成 de facto standard。