Summary

An Embodied Generalist Agent in 3D World

  • 核心: 首个能在 3D 世界中感知、推理、规划和行动的 embodied 多模态 generalist agent
  • 方法: Object-centric 3D 表示 + LLM,两阶段训练(VL alignment + VLA instruction tuning),LLM 辅助生成高质量 3D-language 数据
  • 结果: 在 3D captioning、QA、embodied reasoning、navigation、manipulation 等任务上超越 task-specific 模型
  • Sources: paper | website | github
  • Rating: 2 - Frontier(3D embodied generalist 方向的代表性早期工作与常见 baseline,object-centric 3D + LLM 范式有影响力,但尚未成为 de facto standard)

Key Takeaways:

  1. Object-centric 3D 表示是连接 3D 和 LLM 的有效方案: 相比 3D-LLM 的复杂 feature aggregation,object-centric point cloud + Spatial Transformer 更简洁且效果更好
  2. 两阶段训练(alignment → instruction tuning)对 3D VL 理解至关重要: Ablation 显示 alignment stage 对 Scan2Cap 等细粒度理解任务提升显著
  3. Generalist 训练优于 specialist: 多场景多任务的 instruction tuning 不仅不损害单任务性能,还带来跨场景零样本泛化能力
  4. VL 和 VLA 存在 tension: 加入 embodied acting 任务反而会降低 VL 性能,VL 和 action 的联合学习仍是开放问题

Teaser. LEO 系统概览:接收 2D 图像、3D 点云和文本,统一为 autoregressive sequence prediction 完成多模态多任务


Introduction

构建能在 3D 世界中理解和交互的 generalist agent 面临三大挑战:(1) 缺乏合适的 3D 数据集;(2) 缺乏统一模型架构;(3) 缺乏有效学习策略。现有 generalist 模型(Gato、PaLM-E、RT-2)主要在 2D domain 中工作,缺少对 3D 物理环境的理解能力。LEO 提出用 object-centric 3D representation + LLM 构建统一框架,同时处理 perceiving、grounding、reasoning、planning 和 acting。

Model

LEO 将所有模态数据转换为 token 序列,统一送入 decoder-only LLM 处理:

Equation 1. Unified token sequence

符号说明: 为 ego-centric 2D image tokens, 为 object-centric 3D tokens, 为 response tokens 含义: 所有任务(VL 理解、embodied acting)统一为给定 prefix 的 autoregressive language modeling

Video. Scene representation

Video. Model pipeline

Tokenization

  • Text: SentencePiece tokenizer(32k subwords)
  • 2D: Ego-centric 2D images → OpenCLIP ConvNext 编码
  • 3D: Scene point cloud → Mask3D object proposals → 各 object point cloud → 3D encoder(PointNet++)→ Spatial Transformer → object-centric 3D tokens
  • Action: 连续动作离散化,离散动作映射到 SentencePiece 中最低频的 reserved tokens

Token Embedding & LLM

  • Text & 2D: Embedding look-up table + OpenCLIP ConvNext encoder,MLP adapter 对齐维度
  • Object-centric 3D: PointNet++ → Spatial Transformer(用相对位置和尺寸偏置 attention score,捕捉物体间 3D 空间关系)
  • LLM: Vicuna-7B + LoRA(冻结 LLM 主体,仅调优 LoRA 参数)

Training & Inference

Equation 2. Prefix language modeling loss

符号说明: 为 system message 到 instruction 的所有 prefix tokens, 为 response tokens 含义: 标准 prefix language modeling,仅对 response 部分计算 loss

训练时冻结 3D point cloud encoder 和 LLM,微调 2D image encoder、Spatial Transformer 和 LoRA 参数。总参数量 ~7B,可训练参数 ~142M。推理使用 beam search 生成文本,action 通过映射还原。

Datasets

LEO 采用两阶段训练数据:LEO-align(3D VL alignment)和 LEO-instruct(3D VLA instruction tuning)。

Table 1. 数据统计

DatasetTask2D required?3D assetsdata
LEO-alignobject captioningObjaverse660k
LEO-alignobject referringScanNet + 3RScan354k
LEO-alignscene captioning3RScan20k
LEO-instruct3D captioningScanNet37k
LEO-instruct3D QAScanNet + 3RScan83k
LEO-instruct3D dialogue3RScan11k
LEO-instructtask planning3RScan14k
LEO-instructnavigationMP3D60k
LEO-instructmanipulationCLIPort300k

Video. Data pipeline overview

LEO-align: 3D Vision-Language Alignment

三类 3D captioning 数据用于 3D-language alignment:

  1. Object-level captions: 单个 3D 物体与描述的对齐(Cap3D / Objaverse)
  2. Object-in-the-scene captions: 场景中物体的 referring expression(ScanNet + 3RScan)
  3. Scene-level captions: 整个 3D 场景的自然语言描述(3RScan)

LEO-instruct: Instruction Following in 3D world

指令微调数据覆盖六类任务:

  • 3D captioning & QA: 给定 3D 场景输入,生成描述或回答问题
  • 3D dialogue & planning: 对复杂多轮指令生成灵活连贯的回复和任务计划
  • Navigation & manipulation: 在 3D 环境中完成 embodied acting(ObjNav on MP3D + CLIPort manipulation)

LLM-assisted 3D-language Data Generation

核心流程:3D scene graph → LLM prompting → O-CoT → refinement

  1. Scene-graph-based prompting: 用 3DSSG 提供场景上下文,包含 object attributes 和 spatial relations,比 object boxes 信息更丰富
  2. Object-centric CoT (O-CoT): 要求 LLM 在生成时显式给出 object label 和 ID 作为 thought,减少幻觉
  3. Refinement: 基于 scene graph 的 human-defined filters,自动检测并修正逻辑错误(counting / existence / non-existence)

Table 2. LLM 生成数据质量评估

CountingExistenceNon-existence
3D-LLM56.596.840.0
Ours57.491.327.4
+ O-CoT78.093.430.5
+ refinement100.0100.0100.0

Insights: O-CoT 对 counting 准确率提升最大(+20.6%),refinement 进一步将所有类别提升到 100%,验证了 scene graph 作为 ground truth 校验源的有效性。

Capabilities and Analyses

3D Vision-Language Understanding and Reasoning

在 Scan2Cap、ScanQA、SQA3D 三个 benchmark 上评估,使用 Mask3D object proposals(非 GT segments)。

Table 4. 3D VL 理解与 embodied reasoning 定量比较(部分)

Scan2Cap CScanQA CScanQA EM@1SQA3D EM@1
Scan2Cap (specialist)35.2---
Vote2Cap-DETR61.8---
3D-VisTA66.969.622.448.5
3D-LLM (FlanT5)-69.420.5-
LEO72.4101.424.550.0

Insights: LEO 作为 generalist 模型(无 task-specific fine-tuning)在所有任务上超越了 task-specific 模型和先前的 generalist(3D-VisTA、3D-LLM),验证了 object-centric 3D + LLM 架构的有效性。

Scene-grounded Dialogue and Planning

定性研究显示 LEO 能生成精确 grounded 到 3D 场景的回复:任务计划涉及具体 objects 和 plausible actions,描述中包含丰富的空间关系信息。

Embodied Action in 3D World

Table 5. Robot manipulation 结果

separating-piles seen/unseenpacking-google-objects-seq seen/unseenput-blocks-in-bowls seen/unseen
CLIPort (single)98.0 / 75.296.2 / 71.9100 / 25.0
CLIPort (multi)89.0 / 62.884.4 / 70.3100 / 45.8
LEO98.8 / 75.276.6 / 79.886.2 / 35.2

Table 6. Object navigation 结果

MP3D-val Success/SPLHM3D-val Success/SPL
Habitat-web (demo)35.4 / 10.2-
ZSON15.3 / 4.825.5 / 12.6
LEO23.1 / 15.223.1† / 19.1†

Insights: LEO 在 manipulation unseen tasks 上展现了语义级泛化能力(如 packing-google-objects unseen 超越所有 baseline)。Navigation 方面 SPL 优于 baseline 说明 object-centric 3D input 提供了粗粒度 global map,帮助缩短路径。†标注的 HM3D 是零样本迁移结果。

More Insights into LEO

Table 7. 不同数据配置的 ablation

Scan2CapScanQASQA3D3RQA3RDialog3RPlan
w/o Align62.822.750.949.773.080.3
ScanNet only64.024.446.835.825.523.4
w/o Act65.424.350.051.973.381.1
VLA65.325.046.251.372.377.2

Insights:

  • Alignment: 去掉 alignment stage 在 Scan2Cap 上掉 2.6 分(62.8 vs 65.4),fine-grained captioning 依赖 VL alignment
  • Generalist > Specialist: ScanNet-only 在跨场景(3RQA 35.8 vs 51.9)和跨任务(3RDialog 25.5 vs 73.3)上大幅下降
  • VLA tension: VLA 在 SQA3D(46.2 vs 50.0)上明显低于 w/o Act,embodied acting 任务与 VL 存在学习冲突
  • Data balancing: 不平衡数据导致 hallucination(object-existence 几乎全回答 Yes),augmentation 负样本后 overall 准确率从 34% 提升到 85%

Scaling Law Analysis

测试了 OPT-1.3B → Vicuna-7B → Vicuna-13B 三个 scale 的 LLM,以及有无 alignment 的影响。

关键发现:

  1. LEO 的 instruction tuning loss 随数据量增长呈 log-linear 下降,符合 scaling law
  2. 7B → 13B 的提升幅度明显小于 1.3B → 7B,暗示在当前数据规模下 LLM 可能接近 saturation,需要更多数据匹配模型容量
  3. Alignment 在所有数据 scale 上都带来一致的 loss 降低

关联工作

基于

  • Vicuna-7B: LLM backbone
  • PointNet++: 3D point cloud encoder
  • Mask3D: 3D instance segmentation,提供 object proposals
  • Spatial Transformer: 来自 3D-VisTA,用相对位置/尺寸偏置 attention
  • LoRA: LLM 高效微调
  • OpenCLIP ConvNext: 2D ego-centric image encoder

对比

  • 3D-VisTA: Task-specific fine-tuned generalist,LEO 在所有任务上超越
  • 3D-LLM: 使用 multi-view images 的 3D VLM,LEO 用更简洁的 object-centric 方法取得更好效果
  • CLIPort: Manipulation baseline,LEO 在部分 unseen tasks 上更优
  • Gato / PaLM-E / RT-2: VLA generalist 前辈,但仅处理 2D 输入

方法相关

  • Cap3D: Object-level captioning 数据来源
  • 3DSSG: Scene graph 数据用于 LLM-assisted data generation
  • ScanNet / 3RScan: 核心 3D scene 数据集

论文点评

Strengths

  1. 首个统一 3D VL 和 embodied acting 的 generalist 框架: 在同一个模型中完成 captioning、QA、dialogue、planning、navigation、manipulation 六大类任务,且不需要 task-specific head
  2. Object-centric 3D 表示设计简洁有效: 用 Mask3D proposals + PointNet++ + Spatial Transformer 建立 object-centric token,比 3D-LLM 的 multi-view feature aggregation 更简洁,效果更好
  3. LLM-assisted data pipeline 设计严谨: Scene graph prompting + O-CoT + refinement 三层质量控制,counting 准确率从 57.4% → 100%,方法有技术含量
  4. 全面的 ablation 和 scaling 分析: 对 alignment、generalist vs specialist、VL vs VLA 等关键设计决策都做了 controlled experiments,提供了有价值的 insights

Weaknesses

  1. 3D scene 依赖 GT/Mask3D proposals: Object-centric 表示预设了良好的 instance segmentation,在 open-world 或 noisy perception 下是否仍然有效存疑
  2. VL 和 VLA 的 tension 未解决: 加入 acting 任务会损害 VL 性能(SQA3D 从 50.0 降到 46.2),作者指出但未提出解决方案
  3. Navigation 只用 truncated past actions: 不用 recurrent module 限制了长时序导航能力,success rate 低于 Habitat-web baseline
  4. 3D 数据规模仍然有限: LEO-align 约 1M、LEO-instruct 约 500K 条数据,相比 2D VLM 数据规模差距巨大,scaling law 分析也显示 data 是瓶颈

可信评估

Artifact 可获取性

  • 代码: inference+training 均已开源(GitHub repo 带完整 configs/ 与训练脚本)
  • 模型权重: align.pth(alignment stage checkpoint)、sft_noact.pth(instruction tuning without acting tasks checkpoint),发布在 HuggingFace
  • 训练细节: 超参 + 数据配比 + 训练步数完整(configs/ 目录包含详细配置)
  • 数据集: 开源(LEO_data on HuggingFace,含 scan data + language annotations + EAI data examples)

Claim 可验证性

  • ✅ 3D VL 任务 SOTA:Scan2Cap / ScanQA / SQA3D 均有标准 benchmark 评估,数据和代码开源
  • ✅ Alignment stage 重要性:ablation 有 controlled experiment(w/o Align vs w/o Act)
  • ✅ Generalist > Specialist:ScanNet-only vs full 数据的 ablation 直接可验证
  • ⚠️ “首个 embodied generalist agent in 3D world”:定义上 PaLM-E 等也处理 3D 信息,但 LEO 强调的是 explicit 3D point cloud input 而非 2D → 3D
  • ⚠️ Navigation 泛化能力:HM3D 零样本结果仅与 ZSON 比较,缺少更多 baseline

Notes

Rating

Metrics (as of 2026-04-24): citation=357, influential=36 (10.1%), velocity=12.23/mo; HF upvotes=8; github 483⭐ / forks=41 / 90d commits=0 / pushed 368d ago · stale

分数:2 - Frontier 理由:LEO 是 3D embodied generalist 方向(VLA × 3D scene understanding)的代表性早期工作,object-centric 3D + LLM 的范式被后续 3D-LLM / 3D VQA / embodied reasoning 工作广泛引用和比较(ICML 2024,社区关注度高、开源完整),符合 “Frontier / SOTA / 必要 baseline” 的 2 档定位。之所以不是 3:该范式并未像 CLIP / SAM / ScanNet 那样成为 3D embodied 领域不可绕开的 building block——object-centric 依赖 Mask3D proposals 的前提在 open-world 下受限,VLA tension 也未解决;不是 1:在 3D VL + embodied action 统一框架这条线上,至今仍是常见比较对象,并未被取代。