Summary
提出 OpenSpatial,一个统一、可扩展的开源空间数据引擎,以 3D oriented bounding box 为核心表征,通过 scene graph 驱动的 QA 合成覆盖 5 大类 19 个空间子任务,生成 3M 规模数据集,训练的模型在空间推理 benchmark 上取得约 19% 的相对提升,接近 Gemini-2.5-Pro 水平。
Problem & Motivation
当前 MLLM 在语义理解上表现优秀,但空间推理能力严重不足——无法准确感知距离、保持多视角一致性或构建空间认知地图。核心瓶颈不在模型架构,而在数据:现有空间数据生成依赖封闭、专有的 pipeline,缺乏透明性和可复现性,导致所谓的 “spatial myopia”(高 benchmark 分数但缺乏真实世界泛化能力)。亟需一个开源、有原则的数据引擎来统一异构空间数据的生产。
Method
核心设计原则:
-
3D Box-Centric Grounding:所有标注锚定在 object-aligned 3D oriented bounding boxes (OBBs) 而非 2D 投影。每个物体参数化为 (x,y,z,x_l,y_l,z_l,r,p,y),提供 viewpoint-invariant 的世界坐标表征,支持 metric reasoning 和跨视角对应。
-
3D Lifting for Scalability:除了遵循 EmbodiedScan 协议的手动标注外,设计了自动化 pipeline——用 Gemini 做物体识别、SAM 做 instance segmentation,在 3D 空间中关联和合并实例,拟合 convex hull 生成 oriented boxes。这使得标注能力扩展到未策划的 web 数据和开源资产。
-
Scene-Graph-Driven Synthesis:通过 scene graph 程序化生成平衡的 QA pairs,覆盖多样的空间任务,而非依赖 ad-hoc 数据收集。
数据处理 Pipeline:场景级 3D box 标注 → 属性中心的物体-帧映射(含基于深度的 volumetric occupancy 遮挡过滤和 SAM-refined 2D masks)→ QA 合成(单视角和多视角)。
5 大核心任务(19 个子任务):
- Spatial Measurement (SM):几何度量(长、宽、高、距离)
- Spatial Relationship (SR):相对定位和物体间依赖关系
- Camera Perception (CP):相机位姿估计和物体-相机关系
- Multi-view Consistency (MC):跨视角对应
- Scene-Aware Reasoning (SAR):场景级理解和导航规划
数据来源:EmbodiedScan(ScanNet、Matterport3D、ARKitScenes 的手动 3D box 标注)、ScanNet++、Hypersim,以及通过 3D lifting 获取的 web 数据,最终产出 3M 规模数据集。
Key Results
- OpenSpatial-Qwen2.5-VL-7B:3D-Average 达 59.5(+9.5),在 BLINK (+10.6)、AllAngles (+8.3)、MMSI (+13.1) 上提升显著
- OpenSpatial-Qwen3-VL-8B:3D-Average 达 62.1,接近 Gemini-2.5-Pro 的 62.4
- 质量对比(500k 规模匹配):OpenSpatial 子集在各 benchmark 上 mean deviation 最低 (-2.5)、standard deviation 最小 (4.4),表现最均衡
- Data Scaling:从 20% 到 100% 数据,3D-Average 从 57.6 提升到 59.7,但存在 diminishing returns
- Data Source Scaling:加入 web 数据后 BLINK 从 55.3 提升到 62.2 (+6.9),CV-3D 从 73.8 到 87.9 (+14.1)
- Model Scaling:3B (56.1) → 7B (59.7) → 32B (61.3),验证数据基础设施的有效性
- Ablation:3D box-centric 优于 point-cloud-centric(BLINK 60.3 vs 57.2);去掉遮挡过滤性能显著下降(AllAngles 47.0 vs 53.2)
Strengths & Weaknesses
Strengths:
- 将空间数据生产从封闭 pipeline 转向开源基础设施,这是正确的方向——reproducibility 和 ablation 能力对领域发展至关重要
- 3D box-centric 表征的设计选择有道理:viewpoint-invariant 且支持 metric reasoning,ablation 也验证了其优于 point cloud 方案
- 任务覆盖面广(5 大类 19 子任务),且 scene graph 驱动的合成方式支持 difficulty balancing 和 task diversity
- 3D lifting pipeline 将标注能力扩展到 web 数据,解决了 scale 问题
Weaknesses:
- 室内场景偏重严重,论文承认在桌面和户外场景性能提升有限。这是一个根本性限制——real-world embodied AI 需要在开放、非结构化环境中工作
- Abstract 提到覆盖 8 个任务(depth estimation、surface normal、3D detection、route planning、visual localization、visual SLAM、spatial QA),但正文实际组织为 5 大类 19 子任务,存在一定的叙述不一致
- Data scaling 呈现 diminishing returns,这暗示可能需要质的突破(如更好的 3D 表征或更多样的数据来源)而非单纯量的增长
- 与 SpatialVLM 和 Holi-Spatial 相比,核心思路类似(自动化空间 QA 数据生成 + VLM 微调),区别主要在于工程层面的系统化和开源承诺。方法论创新相对有限
- 对 Gemini + SAM 的 3D lifting pipeline 的精度和 failure mode 讨论不足
Mind Map
mindmap root((OpenSpatial)) Problem MLLM 空间推理不足 现有数据 pipeline 封闭不透明 Spatial myopia 问题 Method 3D Box-Centric Grounding 3D Lifting 扩展标注 Scene-Graph-Driven QA 合成 5 大类 19 子任务 Results 3M 数据集 7B 模型接近 Gemini-2.5-Pro Web 数据显著提升泛化 3D box 优于 point cloud
Notes
- 与 SpatialVLM(2B scale, point cloud based)和 Holi-Spatial(3DGS-based pipeline)形成空间数据引擎的演化线:2D→point cloud→3D box→scene graph,表征越来越结构化
- 对 SpatialToken-VLA 有参考价值:OpenSpatial 的 3D box-centric 表征和 scene graph 结构可能为 spatial token 设计提供数据基础
- 一个值得关注的问题:当 3D box 标注本身有误差时(尤其是 3D lifting pipeline 自动生成的),训练出的模型是否会学到有偏的空间表征?论文对此缺乏讨论