Summary
EmbodiedBench 是一个综合性 benchmark,用于评估 MLLM(Multi-modal Large Language Models)作为 vision-driven embodied agent 的能力。包含 4 个环境(EB-ALFRED、EB-Habitat、EB-Navigation、EB-Manipulation)共 1,128 个测试任务,覆盖 high-level semantic planning 到 low-level atomic action control。设计了 6 个 capability-oriented 子集(commonsense reasoning、complex instruction understanding、spatial awareness、visual perception、long-term planning、basic task solving)进行细粒度评估。对 24 个 leading MLLM 的实验表明:模型在 high-level 任务表现尚可,但 low-level manipulation 极差(最好的 GPT-4o 平均仅 28.9%);vision 输入对 low-level 任务至关重要(移除后性能下降 40%-70%)。
Problem & Motivation
- MLLM-based embodied agent 缺乏系统评估框架:现有 benchmark(ALFWorld、AgentBench、VisualAgentBench)主要面向 language-centric 或仅覆盖 high-level planning,未回答”视觉在 embodied 任务中的角色”和”MLLM 在 low-level 控制任务中的表现”两个关键问题。
- 评估粒度太粗:已有 benchmark 只看 overall accuracy,缺乏对 agent 各项核心能力(推理、感知、规划等)的细粒度拆解。
- Action level 覆盖不全:无 benchmark 同时涵盖 high-level skill planning 和 low-level continuous control,无法全面反映 agent 能力。
Method
Benchmark 设计
四个环境,两个 action level:
- EB-ALFRED(高层):基于 ALFRED + AI2-THOR,household task planning,171-298 个 high-level skill 动作空间(pick up, open, close, slice 等),130 个测试任务
- EB-Habitat(高层):基于 Language Rearrangement + Habitat 2.0,70 个 high-level skill,282 个语言指令模板,限制 navigation 只能到 receptacle 类型目标
- EB-Navigation(低层):基于 AI2-THOR,8 个 low-level 动作(前后左右移动、旋转、摄像头上下倾斜),纯视觉观测导航到目标物体
- EB-Manipulation(低层):基于 ManiSkill2 + SAPIEN,7 维连续动作空间(end-effector 位移+旋转+gripper),tabletop 操作任务
六个 Capability-oriented 子集:
- Basic:标准任务
- Commonsense Reasoning:需要 world knowledge
- Complex Instruction:长句/多约束指令理解
- Spatial Awareness:空间关系推理
- Visual Perception:视觉细节辨识
- Long-horizon Planning:长步骤序列规划
Vision-driven Agent Framework
统一的 agent pipeline:
- 输入:ego-centric 视觉图像 + few-shot in-context examples + interaction history + environment feedback
- 推理:MLLM 接收多模态输入,输出 structured JSON action
- 执行:action 发送至 simulator,获取反馈后循环
评估设置
- 24 个 MLLM:GPT-4o、Gemini、Claude-3.7、Qwen-VL-Max 等 proprietary + 7B-90B open-source(Llama-3.2 Vision、InternVL3、Qwen2.5-VL、Gemma-3)
- Language-centric ablation:去除视觉输入,用文本描述替代
- Visual-centric ablation:图像分辨率、多步图像输入、multi-view、detection box overlay、visual ICL
Key Results
主要发现
- High-level 尚可,low-level 极差:GPT-4o 在 EB-ALFRED 达 53.1%,EB-Habitat 达 24.5%,但 EB-Navigation 仅 22.3%,EB-Manipulation 仅 15.7%,overall 仅 28.9%
- Long-horizon planning 是最大瓶颈:在所有 capability subset 中,long-horizon planning 子集得分最低
- Vision 对 low-level 任务至关重要:去除视觉输入后 low-level 任务性能骤降 40%-70%,但 high-level 任务影响较小(文本描述可部分替代)
- 开源 vs 闭源差距明显:最强开源模型(InternVL3-78B)overall ~20%,仍远低于 GPT-4o 的 28.9%
- Manipulation 是最难的:即使最好的模型也只有 ~16% success rate
Ablation Insights
- 更高图像分辨率对 navigation 和 manipulation 有帮助
- Multi-step image(多帧历史)对 navigation 提升明显
- Visual in-context learning(图像示例)在部分任务有效但非 universal
Strengths & Weaknesses
Strengths
- 全面性:唯一同时覆盖 high-level 和 low-level 的 MLLM embodied benchmark,4 个环境+6 个能力维度
- 大规模评估:24 个 MLLM 的系统对比,包含 proprietary 和 open-source
- Fine-grained capability assessment:从 commonsense 到 spatial awareness 的多维拆解,比 overall accuracy 更有诊断价值
- 丰富的 ablation:language-centric 和 visual-centric ablation 揭示了 vision 在不同任务层次的作用差异
- 工程贡献:修复 ALFRED 模拟器 bug,提供统一的 agent framework 和自动任务生成脚本
Weaknesses
- Performance 天花板低:最好模型 28.9%,说明 benchmark 有挑战性,但也意味着现有结论可能在模型进步后需重新验证
- 仅限 simulation:无 real-world 验证,sim-to-real gap 未讨论
- Agent framework 固定:统一 pipeline 方便公平比较,但不代表各 MLLM 在其他 agent 架构下的最优表现
- Low-level control 用 MLLM 直接输出 action:对 manipulation 而言,这并非当前最优范式(VLA 如 RT-2、pi0 更适合),benchmark 的 low-level 结论可能 scope 有限
Mind Map
mindmap root((EmbodiedBench)) Problem 缺乏 MLLM embodied agent 系统评估 现有 benchmark 只覆盖 high-level 评估粒度粗,无 capability 拆解 Method 4 Environments EB-ALFRED (high-level household) EB-Habitat (high-level rearrangement) EB-Navigation (low-level nav) EB-Manipulation (low-level manip) 6 Capability Subsets Commonsense Reasoning Complex Instruction Spatial Awareness Visual Perception Long-horizon Planning Unified Agent Framework Ego-centric vision + history + feedback Results GPT-4o best at 28.9% overall High-level OK, low-level poor Vision crucial for low-level Long-horizon planning hardest Open-source lags behind proprietary
Notes
- Accepted at ICML 2025
- 对我们的研究价值:作为 embodied agent 能力评估的参考框架,了解 MLLM 在 navigation/manipulation 上的能力边界;其 capability-oriented evaluation 思路可借鉴
- 关键 takeaway:MLLM 直接做 low-level control 目前还远不够好,需要和专门的 VLA 结合或用 hierarchical 方案