Summary
Meta FAIR 提出 V-JEPA 2,基于 self-supervised mask-denoising 预训练的 video foundation model,在 22M 视频上训练 1B 参数 ViT,冻结 representation 后仅用 62 小时无标签机器人视频即可训练 action-conditioned world model,实现 zero-shot 机器人操控的 goal-conditioned planning。
Problem & Motivation
AI 系统如何通过观察学习理解世界并采取行动,是 Yann LeCun 长期倡导的核心问题。当前方法面临两个关键挑战:(1)大规模 video understanding 模型通常依赖 supervised 或 language-supervised 训练,限制了从纯视觉数据学习物理规律的能力;(2)将互联网视频中学到的 visual representation 迁移到 robotic manipulation 需要大量 robot interaction data。V-JEPA 2 试图证明:纯 self-supervised video pretraining 可以同时赋能视觉理解、未来预测和物理世界规划,且仅需极少量机器人数据即可迁移。
Method
V-JEPA 2 Pretraining
- 架构: Vision Transformer (ViT),最大 1B 参数
- 训练范式: Mask-denoising,在 representation space(非 pixel space)操作
- 数据: VideoMix22M 数据集,融合 Something-Something v2、Kinetics、HowTo100M、YT-Temporal-1B、ImageNet 共 2200 万样本
- Scaling 策略:
- 数据:2M → 22M 视频
- 模型:300M → 1B 参数
- 训练:90K → 252K iterations
- Progressive resolution training:多阶段递增分辨率,提升训练效率
V-JEPA 2-AC (Action-Conditioned Post-training)
- 300M 参数 action-conditioned transformer
- 仅用 62 小时无标签机器人视频训练
- 在冻结的 V-JEPA 2 representation 之上学习 action-conditioned next-state prediction
- Goal-conditioned planning: 通过 energy minimization 在 latent space 搜索达到目标状态的 action sequence
Latent-Space Planning
- 在 latent space 进行 model-predictive planning(非 pixel space video generation)
- 计算效率显著提升:16 秒 vs. 4 分钟/action
- 无需 environment-specific training 或 reward signal 即可 zero-shot 部署
Key Results
- Motion Understanding: Something-Something v2 top-1 accuracy 77.3
- Action Anticipation: Epic-Kitchens-100 recall@5 39.7(相比此前方法提升 44%)
- Video QA: 8B 规模下 SOTA(PerceptionTest 84.0、TempCompass 76.9)
- Robot Manipulation: Franka 机械臂上 zero-shot 部署,grasping 和 pick-and-place 成功率 65-75%
- Latent planning 效率: 比 pixel-space video generation 快约 15×
Strengths & Weaknesses
Strengths:
- 完整验证了 self-supervised video pretraining → understanding + prediction + planning 的统一路径,符合 LeCun 的 world model 哲学
- 仅 62 小时无标签机器人视频即可实现 zero-shot manipulation,数据效率极高
- 在 representation space 而非 pixel space 做 prediction 和 planning,计算效率提升显著
- Scaling 实验充分(数据量、模型规模、训练时长三个维度),为社区提供了清晰的 scaling recipe
- 同时在 video understanding benchmark 和 robot manipulation 上验证,跨域泛化令人印象深刻
Weaknesses:
- Robot manipulation 成功率 65-75%,距离实用部署仍有差距
- Zero-shot 仅在简单任务(grasping、pick-and-place)上验证,复杂长序列任务未涉及
- 22M 视频的训练数据规模和 1B 参数的计算需求对大多数实验室不可及
- Action-conditioned model 仅在 Franka 单一平台上验证,cross-embodiment 迁移能力有待更多实验支撑
Mind Map
mindmap root((V-JEPA 2)) Problem Self-supervised learning 能否同时赋能理解与规划 互联网视频知识向机器人迁移 Method Mask-Denoising in Representation Space ViT 1B 参数 VideoMix22M 数据集 Progressive Resolution Training Action-Conditioned Transformer 62h 无标签机器人视频 Latent-Space Energy Minimization Planning Results SSv2 77.3 top-1 EK-100 39.7 R@5 Zero-shot Franka 65-75% Latent planning 15x faster
Notes
- 该工作是 LeCun 提出的 JEPA (Joint Embedding Predictive Architecture) 在 video domain 的最新进展,代表了 self-supervised world model 路线的重大里程碑
- “冻结 representation + 轻量 action-conditioned head” 的范式与 VLA 中 frozen vision encoder 的思路一致,但 V-JEPA 2 完全不依赖语言监督
- Latent planning 的 15× 速度优势对 real-time robot control 有重要实践意义
- Cross-embodiment tag 基于其从互联网视频到机器人的迁移能力,但严格来说仅在单一 embodiment (Franka) 上验证