Summary

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

  • 核心: 将 robot reasoning、task planning、human-robot interaction 统一到单个 VLM 中,作为层级式机器人系统的高层认知模块
  • 方法: 三阶段训练(continued pretraining → SFT with synthesized interaction data → RL with GRPO + thought-action consistency reward)
  • 结果: 在 offline/online 评测中超越 GPT-4o 和 Gemini-2.5-Pro,OOD 泛化能力突出
  • Sources: paper | website
  • Rating: 2 - Frontier(统一 reasoning/planning/interaction 的高层 VLM 设计 + thought-action consistency reward 是近期层级式机器人系统的代表工作之一,但代码/权重未开源、评测集私有,尚未成为 de facto 基础)

Key Takeaways:

  1. 统一架构替代模块化 pipeline: Robix 不再拼接 planning + interaction + reasoning 的独立模块,而是用单个 VLM 在每个 iteration 同时输出 thought、action command 和 verbal response,实现 proactive dialogue、interruption handling、dynamic replanning 等交互能力
  2. 三阶段训练策略是关键: Continued pretraining(200B tokens,覆盖 3D spatial understanding / visual grounding / task-centric reasoning)→ SFT(合成 7 类 human-robot interaction 数据 + CoT reasoning traces)→ RL(GRPO + thought-action consistency reward),其中 CoT 和 RL 各自贡献显著的 OOD 提升
  3. RL 的核心设计是 thought-action consistency reward: 用外部 LLM 评估模型生成的 thought 与 action 是否逻辑一致,负奖励惩罚不一致,配合 reward variance filtering 提升训练效率

Teaser. Robix 交互式任务执行 demo


Introduction

机器人系统需要在开放动态环境中执行复杂日常任务(如收拾餐桌),这要求同时具备:(1) 理解复杂指令 + commonsense reasoning,(2) long-horizon task planning,(3) 自然的 human-robot interaction(包括处理中断、主动澄清歧义)。

现有方法的两大局限:

  • 模块化 pipeline(将 LLM/VLM 仅用于 task decomposition):灵活性差,忽略交互和 embodied reasoning
  • workflow-based 系统:依赖手工设计,脆弱且不可扩展

Robix 的核心思路:用单个 VLM 统一 reasoning + planning + interaction,以 chain-of-thought reasoning 驱动,formulate interactive task execution 为 unified reasoning-action sequence。

Figure 1. Robix 交互式任务执行 demo,展示 (1) 复杂指令理解 + commonsense reasoning;(2) 实时中断处理;(3) 任务状态监控与动态重规划;(4) 主动对话澄清歧义指令


The Robix Model

Robix 在层级式机器人系统中担任高层认知模块(high-level cognitive layer),低层控制器(通常是 VLA 模型)执行 Robix 生成的原子命令。

Figure 2. 层级式机器人系统架构

在每个 iteration,Robix 直接处理机器人摄像头的视觉观察和用户语音输入,选择性地输出:

  • Atomic action command:发送给低层控制器执行
  • Verbal response:回应用户

序列化决策过程建模为:

Equation 1. Sequential decision-making

符号说明 为 thought(内部推理), 为 action command, 为 verbal response, 为 visual observation, 为 user instruction。 含义:每一步预测 thought + action + response,条件为当前观察、用户输入和完整交互历史。为了平衡 memory 和 inference 效率(32k context),只保留最近 帧视觉观察作为显式输入。


Training Recipe

基于 Qwen2.5-VL-7B 和 32B 进行 continual training,总计约 200B tokens,三阶段训练。

Continued Pretraining

构建 200B tokens 的大规模预训练语料,覆盖 robot-relevant 和通用多模态能力。重点强化三个 embodied reasoning 维度:

3D Spatial Understanding: 30M+ instruction pairs(约 40B tokens),涵盖 5 类任务——multi-view correspondence、3D bounding box detection、relative depth sorting、absolute depth estimation、egomotion prediction。数据来源包括 Seed-1.5-VL 的 3D 训练语料和公开数据集(ScanNet、ScanNet++、3RScan、CA-1M、SUN RGB-D、ARKitScenes)。

Visual Grounding: 50M+ instruction-response pairs(约 70B tokens),覆盖 2D bounding box、point annotations、counting、visual prompt 四类任务。坐标统一归一化到 [0, 1000]。

Task-centric Reasoning: 5M+ examples(约 10B tokens),基于公开机器人和 egocentric 数据集(AgiBot、BridgeData V2、DROID、Egodex、Ego4D、RoboVQA、HoloAssist),针对 task status verification、action affordance、next action prediction 三类推理功能。用 Seed-1.5-VL-thinking 生成 step-by-step thought traces。

General Multimodal Understanding: 50M+ image-text pairs(80B+ tokens),涵盖 VQA、captioning、OCR。

Instruction Tuning: 1M high-quality examples,整合通用和 CoT instruction-following 数据。

训练分两阶段:Stage 1 在全量数据上 continue pretraining(含 5% text-only),cosine LR schedule(),sequence length 32,768;Stage 2 在 curated instruction-following 数据上 tune,vision encoder frozen,LR 固定

Supervised Finetuning

核心挑战:缺乏大规模多轮 egocentric-vision 数据集来同时建模 human-robot interaction 和 task planning。

解法:数据合成 pipeline,包含两个模块:

Interaction Synthesis — 从两类数据源(teleoperated robot demonstrations + simulation & AIGC data)合成 7 类交互指令:

  1. Multi-Stage Instruction: 包含 ≥10 个 atomic actions 的长轨迹
  2. Constrained Instruction: 带约束条件的子任务指令
  3. Open-Ended Instruction: 需要 commonsense 推理的开放式指令
  4. Anytime Interruption: 随机注入用户中断并合成对应响应
  5. Invalid Instruction: 4 类不可执行指令(不存在的物体、物理不可能、超出能力、危险指令)
  6. Ambiguous Instruction: 需要主动澄清的模糊指令
  7. Chat Instruction: 任务执行中穿插的对话

Reasoning Synthesis — 为每条交互数据生成 CoT reasoning traces,强调 4 个维度:scene understanding、task status reflection、long-term instruction following、next-step analysis。采用 ActRe + Thought Bootstrapping 方法,用 Seed-1.5-VL 生成简洁的 reasoning(≤200 tokens),并过滤幻觉和逻辑不一致的 traces。

Reinforcement Learning

SFT 后的模型仍存在:(1) irrational reasoning(思维冲突、缺乏 commonsense);(2) thought-action inconsistency(思考和行动脱节)。

采用 GRPO 进行 RL,两个核心策略:

Co-training with General Visual Reasoning Data: 混合 robot interaction data 和通用 visual reasoning data(task completion verification、action affordance、object localization 等),前者提升 OOD 泛化,后者缓解 irrational reasoning。

Thought-Action Consistency Reward: 除标准 format + accuracy reward 外,额外引入一致性 reward——用外部 LLM(Qwen-2.5-32B)评估每步生成的 thought 和 action 是否逻辑一致,不一致则给负奖励。

Equation 2. RL data filtering(reward variance threshold)

含义:过滤掉 reward variance 低的样本( 个候选答案的 reward variance ),只保留对 policy 改进有信息量的训练数据。RL 训练使用 verl 框架。


Experiments

Fundamental Perception & Reasoning Evaluation

在 31 个公开 benchmark 上评测 Robix,覆盖 3D spatial understanding(8 个)、visual grounding(8 个)、embodied task-centric reasoning(6 个)、general multimodal understanding & reasoning(9 个)。

Figure. Vision-language benchmark 性能对比

关键结果:

  • 3D Spatial Understanding: Robix-7B/32B 在 7/8 个任务上超越 backbone(Qwen2.5-VL),平均准确率 73.4 / 75.8 vs. 66.9 / 70.7;超越 Cosmos-Reason1-7B(64.0)和 RoboBrain-32B(72.2)
  • Visual Grounding: Robix-7B/32B 在 LVIS-MG 上 F1 分别提升 39.6 和 25.0(绝对值),全面超越 backbone 和大部分商业模型
  • Task-centric Reasoning: 在 Agibot-ER 上分别超越 backbone 12.8 和 7.2 个点,超越 Cosmos-Reason1-7B 和 RoboBrain-2.0-32B 达 23 和 8.3 个点
  • General Multimodal: 保持 backbone 水平,部分 benchmark 有提升,但仍落后于大规模商业模型

Offline Evaluation

设计三个评测集:(1) AGIBot Evaluation Set(16 个 OOD daily tasks),(2) Internal OOD Benchmark(16 个交互脚本),(3) Internal ID Benchmark(6 类任务)。评测采用 teacher-forcing,逐步预测 action 与 candidate action list 匹配。

Figure. Offline evaluation results

Table 3. Offline evaluation results

AGIBotInternal OODMulti.Const.InterruptOpen.Invalid (F1)Replan (F1)
Gemini-2.5-Pro52.683.879.387.155.96098.383.7
GPT4-o45.977.076.184.444.866.779.273.7
Qwen-2.5-VL-32B43.371.660.562.248.026.770.237.0
RoboBrain-2.0-32B29.663.558.251.741.20.043.629.9
Robix-7B-SFT-wo-R55.269.982.589.091.560.010090.5
Robix-7B-RL59.685.493.290.378.686.795.987.0
Robix-32B-SFT83.589.393.089.780.010095.1
Robix-32B-RL64.486.896.696.092.593.310096.2

Insights:

  • Robix-32B-RL 在所有评测集上排名第一,全面超越所有开源和商业 VLM
  • CoT reasoning 关键:去掉 CoT 的 Robix-7B-SFT-wo-R 在 Internal OOD 上下降 7+ 个点,在 Open-Ended 上下降 26.7 个点
  • RL 关键:Robix-7B-RL 和 32B-RL 在 Internal OOD 上分别比 SFT 版本提升 8.3 和 3.3 个点
  • Gemini-2.5-Pro 是最强 baseline,在多数 baseline 方法中排名第一

Online Evaluation

两组实验:(1) VLM + human UMI operator(排除低层控制器干扰),(2) Robix + GR-3 VLA on ByteMini robot。

Figure 5. Online evaluation with UMI

UMI 设置结果: Robix-32B 和 Gemini-2.5-Pro 各在 3/5 任务上排名第一,Robix-32B 平均 task progress 略高(92.6% vs. 91%),大幅超越 Qwen2.5-VL-32B(28%)。

Figure 6. Online evaluation with GR-3 on ByteMini robot

GR-3 设置结果: Robix-32B 平均 task progress 92.5%,超越 Gemini-2.5-Pro 4.3 个百分点,超越 GPT-4o 28.1 个百分点。Baseline 方法(尤其 GPT-4o)会生成语义正确但 VLA 无法识别的 action(如 “put the biscuit box into the shopping basket” vs. VLA 只识别 “put the Oreo into the shopping basket”),VLM-VLA misalignment 是主要失败原因。


关联工作

基于

  • Qwen2.5-VL-7B/32B: 作为 backbone VLM 进行 continual training
  • Seed-1.5-VL / Seed-1.5-VL-Think: 提供 3D spatial understanding 训练数据和 CoT thought trace 生成
  • GR-3: ByteDance 内部 VLA 模型,作为低层控制器
  • GRPO (DeepSeek-R1): RL 训练算法
  • ActRe + Thought Bootstrapping (UI-TARS): CoT reasoning trace 合成方法

对比

  • GPT-4o: 商业 VLM baseline,在 offline/online 评测中全面落后于 Robix-32B
  • Gemini-2.5-Pro: 最强 baseline,offline 评测中在多数 baseline 方法中排名第一,online 评测与 Robix-32B 接近
  • RoboBrain-2.0: 开源 embodied reasoning 模型,在所有评测中落后
  • Cosmos-Reason1: NVIDIA 的 embodied reasoning 模型,在 task-centric reasoning 上落后明显

方法相关

  • Hi Robot: 层级式 VLM-VLA 系统,支持 open-ended instruction following,但依赖更复杂的框架
  • RACER: VLM supervisor + physics simulation 用于 failure recovery
  • RT-H: 支持 language-based intervention 的层级架构

论文点评

Strengths

  1. 统一建模的实用价值高: 将 reasoning + planning + interaction 统一到单个 VLM,避免了模块化系统的脆弱性和 workflow 的 hand-engineering,且 demo 展示的交互能力(中断处理、主动澄清、状态监控)在真实场景中非常实用
  2. 数据合成 pipeline 设计精细: 7 类交互指令 + 4 维 CoT reasoning traces 的合成方案覆盖了现实交互的主要模式,特别是 invalid instruction 和 ambiguous instruction 的合成增强了系统鲁棒性
  3. RL 设计有针对性: Thought-action consistency reward 直接解决 SFT 模型的核心问题(推理和行动脱节),比纯 accuracy reward 更 fine-grained
  4. 评测体系完善: Offline(ID + OOD)+ Online(UMI + VLA)的评测设计,将 high-level planning 能力与 end-to-end 系统性能分开评估,方法论清晰

Weaknesses

  1. 数据和训练细节不够透明: 合成数据的具体规模、质量分布、filtering 的通过率等关键信息缺失;200B tokens 的预训练数据中各类数据的比例配方也未详细披露
  2. 低层控制器依赖强: 整个系统的实际表现高度依赖低层 VLA(GR-3)的能力边界,且 VLM-VLA misalignment 问题(Robix 生成的 action 描述 VLA 无法执行)在论文中被归因于 baseline 但 Robix 自身也未完全解决
  3. 长期记忆能力有限: 论文自己承认 Robix 依赖 short-term context window(32k),对需要 long-term memory 的交互场景(跨 session 的偏好记忆等)无法支持
  4. OOD 泛化的边界不清晰: AGIBot OOD 评测集 Robix-32B-RL 得分 64.4,虽是最高但绝对值不高,说明 OOD 泛化仍有很大空间,但论文对失败模式分析不足

可信评估

Artifact 可获取性

  • 代码: 未开源
  • 模型权重: 未发布
  • 训练细节: 仅高层描述(三阶段训练的 LR / batch size / optimizer 参数有披露,但数据配比和合成 pipeline 细节不完整)
  • 数据集: 私有(合成数据 pipeline 和内部 teleoperation 数据均未开源;预训练用到了公开数据集但整合后的数据集未发布)

Claim 可验证性

  • ✅ 在 31 个公开 benchmark 上的性能数字:可通过公开 benchmark 独立验证(如果模型开源)
  • ✅ CoT reasoning 和 RL 各自的贡献:ablation(Table 3 中 SFT-wo-R vs. SFT vs. RL)提供了清晰的对比
  • ⚠️ “outperforms GPT-4o and Gemini-2.5-Pro”:offline 评测基于内部设计的 benchmark(Internal OOD/ID),评测集未公开,难以独立复现;online 评测每个 task-model pair 仅重复 4 次,样本量有限
  • ⚠️ 92.6% average task progress in online evaluation:task progress 由 human annotators 主观评估,评估标准和 inter-annotator agreement 未报告

Notes

Rating

Metrics (as of 2026-04-24): citation=15, influential=1 (6.7%), velocity=1.95/mo; HF upvotes=53; github=N/A (无代码仓库)

分数:2 - Frontier 理由:按 Strengths 所述,Robix 将 reasoning/planning/interaction 统一到单 VLM + thought-action consistency reward 是层级式机器人系统的一个代表性设计范式,offline/online 评测均超过 GPT-4o 与 Gemini-2.5-Pro,具备作为 baseline 被后续工作对比的价值;但 Weaknesses 和可信评估显示代码、权重、评测集均未公开,训练细节不完整,复现门槛高,且方法本身没有突破范式层面的新认知(仍是 high-level VLM + low-level VLA 的标准层级架构),还不具备 Foundation 档所要求的”只读这篇就能理解方向脉络”的奠基性。2026-04 复核:cite=15/inf=1/vel=1.95/mo、HF=53,7.7mo 发布,citation 节奏处于 Frontier 档正常区间但 influential/total=6.7% 偏低(rubric “典型 ~10%”),意味着被当 landmark 引用多、实质继承少;仍保留 2,若 cite 继续上升但 inf 停滞则可判定为 “frequently-cited reference but low inheritance”,仍属 Frontier 范畴。