Summary

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • 核心: 用 JEPA 范式在 1M+ 小时互联网视频上自监督预训练 1B 参数 video encoder,再用 62 小时无标签机器人视频训练 action-conditioned predictor,得到一个能同时做视频理解、动作预测、和 zero-shot robot planning 的 world model
  • 方法: Mask-denoising in representation space (V-JEPA 2 pretraining) + 冻结 encoder + 在 representation space 上学 autoregressive action-conditioned predictor (V-JEPA 2-AC) + cross-entropy method 做 receding-horizon planning
  • 结果: SSv2 77.3 top-1 / EK100 39.7 R@5 (相对 PlausiVL +44%) / Franka 上 zero-shot pick-and-place avg 65–80% / latent planning 16s vs Cosmos 4min per action
  • Sources: paper | website | github
  • Rating: 3 - Foundation(在一个 encoder 上完整打通 understanding / prediction / planning 三条 pipeline,为 JEPA 路线在 video + robotics 提供首个 end-to-end 证据,后续 video world model / latent planning 工作的绕不开 reference)

Key Takeaways:

  1. Self-supervised video pretraining 真的可以同时做 understanding + prediction + planning:单一 V-JEPA 2 encoder 在 6 个分类、action anticipation、VidQA、机器人 planning 四类任务上都拿了竞争性或 SOTA 的成绩,且不依赖任何 language supervision。这是 LeCun 长期主张的 JEPA 路线在 video domain 的第一次完整 end-to-end 验证
  2. Latent-space planning 相对 pixel-space video generation 有 ~15× 计算优势:V-JEPA 2-AC 16 秒/action vs. Cosmos 4 分钟/action,且 success rate 更高。这从工程上证伪了 “robot planning 需要先生成像素级视频” 的 implicit assumption
  3. 62 小时无标签机器人视频 + 冻结 video encoder = zero-shot 跨 lab 部署:post-training 数据量比典型 imitation learning 小 1–2 个数量级,且不需要 reward / task label / 成功失败标签,对 cross-embodiment world model 的数据需求给出了一个新的下界
  4. Scaling recipe 清晰但有限:1B 参数已开始进入 plateau 苗头,data scaling 22M videos 的边际收益也在递减,作者主动 flag 了 long-horizon planning、language-goal、模型规模 (>1B) 三个方向作为 open problems

Teaser. V-JEPA 2 整体框架:在 1M 小时视频上做 mask denoising 预训练得到 video encoder,下游既可以用 attentive probe 做分类/anticipation 也可以对齐 LLM 做 VidQA;冻结 encoder 后用机器人交互数据训练 action-conditioned predictor (V-JEPA 2-AC),再用 MPC 做 zero-shot manipulation planning。


Problem & Motivation

人类(包括动物)通过观察世界获得大量的物理常识,并利用这种 internal world model 做感知和规划。LeCun 长期主张构建能够 (1) 理解世界、(2) 预测未来、(3) 在新情境下规划 的 AI 系统,而 JEPA (Joint Embedding Predictive Architecture) 是其推荐的技术路径。

之前的工作存在几个互不打通的孤岛:

  • Video understanding 模型(CLIP / SigLIP / Perception Encoder)依赖 language supervision,限制了对纯物理动态的学习
  • Pixel-space world modelsCosmos 等 video generation 类)能生成看起来合理的未来帧,但由于 planning 需要在 pixel space 滚动,计算开销巨大,鲜有真正闭环 robot 控制的 demo
  • Imitation learning / VLA(如 Octoπ0)需要大量 successful demonstration,对 reward / label 有强依赖,且无法天然利用 failure trajectories

V-JEPA 2 试图证明:仅靠 self-supervised video pretraining,配合极少量无标签机器人视频,就能贯通 understanding → prediction → planning 整条 pipeline。

❓ 一个隐含的辩论:JEPA 的支持者长期与 generative world model 阵营有方法论分歧。这篇论文用 16s vs 4min 的速度对比、以及 manipulation 上的 success rate 优势,给出了 JEPA 路线的第一个 strong empirical argument——但这个对比是否完全公平(Cosmos 是 latent diffusion,并非专门为 control 设计)值得保留怀疑。


Method

V-JEPA 2 Pretraining

Mask-Denoising in Representation Space — 核心 objective:

符号说明 是 encoder, 是 predictor, 是位置 mask token, 是 encoder 权重的 EMA, 是 stop-gradient。Loss 只在 masked patch 上计算,用 EMA + stop-gradient 防止 representation collapse。

Architecture:encoder 和 predictor 都是 ViT,最大 1B 参数 (ViT-g)。三个工程改动:

  • 3D-RoPE(取代原 V-JEPA 的 absolute sincos)——稳定大模型训练
  • Tubelet patchify
  • Multiblock masking(沿用 V-JEPA)

Key Scaling Ingredients(这部分是相对原 V-JEPA 的核心增量):

Figure 3. 四个 scaling ingredient 的累计效果(average accuracy across SSv2/Diving-48/Jester/K400/COIN/IN1K)。

  1. Data scaling: 2M → 22M videos (VideoMix22M, +1 pt average)
  2. Model scaling: ViT-L 300M → ViT-g 1B (+1.5 pt)
  3. Longer training: warmup-constant-decay schedule,90K → 252K iterations (+0.8 pt)
  4. Progressive resolution: warmup/main 阶段用 16 frames @ 256²,cooldown 阶段升到 64 frames @ 384² (+0.7 pt),最关键是给出 8.4× GPU-time 节省——直接全分辨率训练 ViT-g 需 ~60 GPU-years

Pretraining Dataset: VideoMix22M

Table 1. VideoMix22M 数据组成。Source-specific 采样权重通过手动 tuning 确定。

SourceSamplesTypeTotal HoursCurationWeight
SSv2168KEgoVideo168No0.056
Kinetics733KExoVideo614No0.188
HowTo100M1.1MExoVideo134KNo0.318
YT-Temporal-1B19MExoVideo1.6MYes0.188
ImageNet1MImagesn/aNo0.250

YT1B 的 1.6M 小时数据未经 curation,作者用 cluster-based retrieval(target 分布是 Kinetics + SSv2 + COIN + EpicKitchen 训练集)把它过滤成 Curated-YT1B,单独用此数据集训 ViT-L 就能逼近 VM22M 的水平,但更大模型 (ViT-g) 仍然受益于完整 mix——说明 curation 在小模型上 enough,大模型仍需更广 visual coverage。

❓ 22M 视频的 source weight 是 “manually tuned”,paper 没披露 sweep 范围或 sensitivity,这是个可复现性的弱点。

V-JEPA 2-AC: Action-Conditioned Post-training

冻结 V-JEPA 2 video encoder,在其 representation space 上训一个 ~300M 参数的 action-conditioned predictor。

Figure 6. V-JEPA 2-AC 训练流程。Teacher forcing 把当前帧 representation 喂给 predictor 预测下一帧,rollout loss 把 predictor 输出反馈作为输入做 multi-step 预测以减小 autoregressive error accumulation。

Setup

  • 数据:Droid 中 ≥4s 的视频片段,~62 小时,4 fps,16 帧 256² clip
  • End-effector state (3 position + 3 orientation Euler + 1 gripper),action
  • Encoder 用 frozen ViT-g,每帧得到 feature map
  • Predictor 是 24-layer / 16-head / 1024-dim transformer,block-causal attention(每个 patch 能 attend 同步 + 历史的所有 patch / action / state token)
  • 3D-RoPE 给 video patch,仅 temporal RoPE 给 action / state token

Loss:teacher forcing + 2-step rollout

其中 rollout loss 只反传一步 recurrent,避免 BPTT 爆炸。

Planning by Energy Minimization

给定 goal image 编码成 ,规划目标是最小化 latent space 的 L1 距离:

Cross-Entropy Method (CEM) 做 sampling-based optimization:每 planning step 从一组高斯分布采样 action 序列,取 top-k 更新分布均值方差,迭代若干轮,执行第一个 action,re-plan(receding horizon control)。

Figure 7. Planning 示意图:在 latent space 用 CEM 优化 action 序列,使 imagined future state 接近 goal representation;只执行第一个 action 后 re-plan。


Key Results

Robot Planning(最强 selling point)

Table 2. Zero-shot Robot Manipulation。两个 lab 的 Franka + RobotiQ gripper,每个任务 10 次 trial,物体位置/初始姿态 randomize。

GraspReach w/ Obj.Pick-&-Place
MethodReachCupBoxCupBoxCupBox
Octo (BC fine-tune) Avg100%15%0%15%70%15%10%
V-JEPA 2-AC Avg100%65%25%75%75%80%65%

Table 3. Planning Performance vs Cosmos (latent diffusion 7B)。Single RTX 4090 GPU。

MethodSamplesIterHorizonTime/actionReachGrasp CupGrasp BoxP&P CupP&P Box
Cosmos801014 min80%0%20%0%0%
V-JEPA 2-AC80010116 sec100%60%20%80%50%

V-JEPA 2-AC 用 10× sample budget15× 更快,并且 success rate 全面占优。Cosmos 在 grasp 和 pick-and-place 上几乎全 0,作者归因于 pixel-space prediction 的 fidelity 不足以支持精确控制。

Figure 10. Pick-and-place 的闭环 rollout。Highlighted frames 是 sub-goal 切换点(grasp → vicinity → final placement)。

❓ Octo 的 baseline performance 显得很差(grasp box 0%),作者用 hindsight relabeling fine-tune 整个 Droid。是否真正调到 Octo 的最佳状态?社区常报 Octo 在 in-distribution 任务上明显高于这个数字,所以 baseline 选择和 fine-tuning 配置可能 favor V-JEPA 2-AC。

Understanding (Probe-based Classification)

Table 4. 6 个分类任务的 attentive probe 结果(V-JEPA 2 ViT-g₃₈₄ 是 cooldown 时升到 384²,其他用 256²)。

MethodParam.Avg.SSv2Diving-48JesterK400COININ1K
DINOv21.1B81.150.782.593.483.690.786.1
PE core G1.9B82.355.476.990.088.595.387.6*
SigLIP21.2B81.149.975.391.087.395.188.0
V-JEPA ViT-H600M85.274.387.997.784.587.180.0
InternVideo2 s2-1B1B87.069.786.497.089.493.885.8
V-JEPA 2 ViT-g1B87.575.390.197.786.690.784.6
V-JEPA 2 ViT-g₃₈₄1B88.277.390.297.887.391.185.1

V-JEPA 2 在 motion 任务(SSv2, Diving-48, Jester)显著超过 image-based encoder,appearance 任务 (K400, COIN, IN1K) 略弱于 PE/SigLIP——符合 motion-vs-appearance 的直觉分工。

Prediction (Action Anticipation on EK100)

Table 5. Epic-Kitchens-100 1-second action anticipation, mean-class recall@5(验证集)。

MethodParam.VerbNounAction
InAViT160M51.952.025.8
Video-LLaMA7B52.952.026.0
PlausiVL8B55.654.227.6
V-JEPA 2 ViT-L300M57.853.832.7
V-JEPA 2 ViT-g1B61.255.738.0
V-JEPA 2 ViT-g₃₈₄1B63.657.139.7

300M 的 V-JEPA 2 ViT-L 已经显著超过 8B 的 PlausiVL(32.7 vs 27.6 action recall@5),1B 模型再 +5.3。linear scaling with model size —— 在该任务上未见 plateau。Probe 用了 V-JEPA 2 的 predictor 输出 + encoder 输出 concat,三个 query token 分别预测 action / verb / noun。

Video QA (Aligned with LLM)

Table 8. Full-scale alignment (88.5M samples, Llama 3.1 8B 后端)。≤8B 类别 SOTA。

MethodParamsAvg.PerceptionTestMVPTempCompassTemporalBenchTOMATOTVBenchMVBench
InternVL-2.5300M/7B52.168.939.968.324.329.461.672.6
Qwen2.5VL1B/7B49.770.536.771.724.524.650.569.6
PLM 8B1B/8B56.782.739.772.728.333.263.577.1
V-JEPA 2 + Llama 3.1 8B1B/8B59.584.044.576.936.740.360.673.5

注意:V-JEPA 2 在 5/7 个 benchmark 上拿 SOTA,但在 TVBench / MVBench 略输 PLM 8B——这两个是 general / 偏 appearance 的 benchmark,与 V-JEPA 2 强 motion / 弱 appearance 的 profile 一致。值得强调:这是首次 video encoder(无 language supervision)在对齐 LLM 后达成 SOTA VidQA,挑战了 “VidQA 必须用 CLIP-style language-supervised encoder” 的 conventional wisdom。


关联工作

基于

  • V-JEPA (CVPR 2024): 直接前身。V-JEPA 2 主要增量是数据 (2M→22M)、模型 (600M→1B)、progressive resolution、3D-RoPE、warmup-constant-decay schedule
  • JEPA (LeCun 2022 position paper): 整套方法论的源头,“learn predictive models in representation space, not pixel space”
  • DINOv2 / SigLIP 2 / Perception Encoder: 同代 image foundation model 对手,被作为 frozen-encoder VidQA baseline
  • Droid Dataset (Khazatsky et al. 2024): 提供机器人 post-training data;选 ≥4s 子集后 ~62 小时

对比

  • Octo: vision-language-action behavior cloning baseline(基于 OXE 1M+ trajectories pretrain,Droid hindsight relabeling fine-tune)。在 manipulation 表上完败 V-JEPA 2-AC,但 baseline 调优强度存疑
  • Cosmos (Nvidia 2025): pixel-space latent diffusion world model 代表。被用来证明 “pixel-space planning 计算上不可行 + success rate 低”,是这篇 paper 最关键的对比
  • PlausiVL / Video-LLaMA / InAViT: action anticipation baseline,被 V-JEPA 2 ViT-L (300M) 直接超过——挑战了 “anticipation 必须用大 LLM” 的设定
  • PerceptionLM 8B: VidQA SOTA baseline,V-JEPA 2 用同 recipe + 不同 encoder 在 5/7 benchmark 上反超

方法相关

  • Mask Image/Video Modeling: VideoMAE / VideoMAEv2、I-JEPA、MAE-ST。V-JEPA 系列的关键差异是在 representation space mask denoising(非 pixel space),避免预测 unpredictable details
  • Cross-Entropy Method (CEM): 经典 sampling-based optimizer,Williams & Bagnell etc. 在 MPC 中常用,这里被搬到 latent space planning
  • Receding-horizon / Model-Predictive Control: 经典控制论范式,V-JEPA 2-AC 的部署方式是 latent-space MPC——和 Dreamer / TD-MPC 一脉相承,但完全 zero-shot
  • Visual Servoing: 作者明确将 single-goal reaching 类比为 “learned visual servoing”——同样是用视觉反馈控制 motion,但不用 explicit camera calibration

论文点评

Strengths

  1. 方法论上的”统一证据”价值:在一个 encoder 上同时论证 understanding (SOTA classification + VidQA)、prediction (SOTA anticipation)、planning (zero-shot Franka) 三件事,且都不依赖 language supervision——为 JEPA 路线提供了第一个完整的端到端 case study。这是一个真正的 “important” 而非仅 “publishable” 工作
  2. Latent vs pixel planning 的对比是这篇 paper 最有 actionable insight 的实验:16s vs 4min,且 success rate 反超。这从工程上为 robot world model 社区指明了一个方向:not all world models need to be generative
  3. 数据效率的直接证据:62 小时无标签机器人视频 + 冻结 encoder 即可 zero-shot 跨 lab 部署,对比 Octo(OXE 1M+ trajectories fine-tune Droid)。给后续 cross-embodiment world model 工作设了一个数据下界
  4. Scaling ablation 设计扎实:四个 ingredient 各自给数字(+1 / +1.5 / +0.8 / +0.7 pt),并且配合 progressive resolution 给出 8.4× GPU-time 节省的工程贡献,复现门槛说明完整
  5. 诚实的 failure analysis:4.3 节直接 flag camera positioning sensitivity / long-horizon limitation / image-only goal 三个限制,附录还有 camera position 的 quantitative sensitivity 分析。这种 self-disclosure 在大厂 paper 中并不常见

Weaknesses

  1. Cosmos 作为 pixel-space baseline 不太公平Cosmos 是为 video generation 设计的 latent diffusion 模型,不是 robot control 优化的。Cosmos 的 0% grasp 成绩与其说是 “pixel-space 范式输了”,不如说是 “通用 video generation 模型 zero-shot 接 control 不 work”。一个更公平的对比应该是专门为 control 设计的 generative world model(如 GAIA / Genie / DreamerV3-style),但这些都没出现
  2. Manipulation 任务范围狭窄:仅 grasp + reach + pick-and-place + 3 个物体(cup / box / bottle),且都是单步 prehensile manipulation。任何需要 in-hand reorientation、deformable object、bimanual、tool use 的任务都未触及,作者也承认 long-horizon 是未解问题
  3. Cross-embodiment 措辞过强:tag 上自称 cross-embodiment,但实际只在 Franka 这一种 embodiment 上验证,仅是 “cross-lab”(两个不同的 Franka 安装环境)。对比 Octo / OpenVLA 等真正的 cross-embodiment 工作(涵盖 7+ 种臂),V-JEPA 2-AC 的迁移性主张需要打折
  4. Camera positioning 是个严重 caveat:作者承认 “manually tried different camera positions before settling on one that worked”——这意味着 zero-shot 的代价是 expert 需要先 tune camera placement,离 truly autonomous 部署还有距离
  5. Octo baseline 调优可能 underdone:Octo 在 grasp box 上拿 0% 异常低,社区常见复现的 Octo 在 in-distribution 简单任务能到 30-50%。需要看 community independent 复现才能确认 V-JEPA 2-AC 的真实优势幅度
  6. “无 language supervision” 的 framing 略 misleading:V-JEPA 2 pretraining 没用 language,但 7.4 节做 SOTA VidQA 时用了 88.5M image/video-text 对齐数据。所以更准确的说法是 “encoder 无 language supervision,downstream alignment 仍需 paired data”

可信评估

Artifact 可获取性

  • 代码: inference + training 代码均开源(见 GitHub README,包含 pretraining、AC post-training、attentive probe、VQA alignment 四类训练脚本)
  • 模型权重: 已发布完整 ckpt 系列:vjepa2-vit-{l,h,g} (256² 与 384²)、vjepa2-vit-g-{384,512} for VidQA、以及 vjepa2-ac-vit-g。HF Collection 集中托管
  • 训练细节: 完整披露——附录 §10–14 给出 4 个 stage 的逐项 hyperparameter table(learning rate / batch size / EMA schedule / mask ratio / RoPE 配置等),含数据 source weight 和 iteration 数
  • 数据集: VideoMix22M 的所有 source 均为公开数据集(SSv2 / Kinetics / HowTo100M / YT-Temporal-1B / ImageNet),但 Curated-YT1B 的 retrieval 索引和最终采样列表未发布;Droid 公开

Claim 可验证性

  • 6 个 classification 任务 SOTA:标准 frozen-encoder + attentive probe protocol,结果可独立复现,绝对数字与他人 reported 一致(DINOv2/SigLIP2/PE 数字与原文匹配)
  • EK100 anticipation +44% over PlausiVL:标准 benchmark + standard recall@5 metric,附 model-size linear scaling 趋势作为佐证
  • VidQA SOTA in 8B class on 5/7 benchmarks:用 PerceptionLM 8B 同 recipe 公平比较
  • Latent planning 16s/action vs Cosmos 4min/action:硬件 (RTX 4090) + sample/iteration 数公开
  • ⚠️ Zero-shot Franka manipulation 65–80% success rate:sample size 小(10 trials/task × 2 labs × 7 tasks ≈ 140 trials),且 grasp box 只有 25% avg;“various permutations” 的具体 randomization protocol 未充分说明,cherry-picking 风险中等
  • ⚠️ “Cross-lab generalization”:两个 lab 都用 Franka + RobotiQ + 类似的 operational space controller,硬件差异远小于 cross-embodiment——claim 应为 “cross-environment within same robot platform”
  • ⚠️ Octo baseline performance:Octo 在 grasp box 上 0% 与社区其他复现存在 gap,可能是 Droid hindsight relabeling fine-tune 的实现细节问题,paper 未给独立 sanity check
  • ⚠️ “无 language supervision 即可对齐 LLM 拿 SOTA VidQA”:encoder 本身确实无 language supervision,但 7.4 节用了 88.5M image/video-text 对齐数据,alignment phase 对语言 paired data 依然有 significant requirement——standalone “无监督” 的暗示需要打折

Notes

  • 这篇是 LeCun 长期主张的 JEPA 路线在 video + robotics 领域的一次完整 end-to-end 验证。重要性主要在于:把”video understanding pretraining”和”robot world model”两个原本是不同社区的研究方向用一个方法论统一起来。这种统一比单点 SOTA 更有价值
  • Latent vs pixel planning 的速度对比(16s vs 4min)是工程上极有 actionable 的 insight。如果你在做 robot world model,这给了一个明确信号:不要把 budget 全压在 pixel-space 生成质量上
  • 62 小时无标签机器人视频的设定可被视为 cross-embodiment world model 的一个 lower bound:未来若要做真正多机器人迁移,可以以此为参考量级
  • Camera positioning 必须 manual tune 这个 caveat 暗示 V-JEPA 2-AC 学到的不是真正 metric 3D 物理动态,而是 in-distribution 的 visual-action 关联——这与其在 box / cup 这样有不同 grasping affordance 的物体上波动较大的 success rate 一致
  • 一个值得跟进的 open question:V-JEPA 2-AC 的 representation 是否能反过来改善 V-JEPA 2 encoder?目前是单向 distillation(encoder frozen),如果允许 encoder 在 action data 上 fine-tune,是否能得到更适合 control 的 representation?这是 future work 没提但值得做的 ablation
  • 对我们自己的 world model 工作的启示:don’t rush to pixel-space generation。先确认 representation space 内 prediction + planning 能 close the loop,再考虑是否需要 generative head

Rating

Metrics (as of 2026-04-24): citation=299, influential=38 (12.7%), velocity=28.75/mo; HF upvotes=31; github 3710⭐ / forks=446 / 90d commits=4 / pushed 31d ago

分数:3 - Foundation 理由:如 Strengths #1 所写,V-JEPA 2 在一个 encoder 上完整打通 understanding (SOTA classification + VidQA) / prediction (SOTA anticipation) / planning (zero-shot Franka) 三条 pipeline,是 JEPA 路线在 video + robotics 的第一个 end-to-end 证据,兼具方法论统一价值和 actionable 的工程对比(16s vs 4min latent vs pixel planning)。相比相邻的 2 - Frontier,这篇不是单点 SOTA 或某个范式的代表作,而是明确改变了 video world model 社区的讨论框架(“not all world models need to be generative”),且 FAIR 同步开源了完整 ckpt 系列与训练 recipe,已成为 video world model / latent planning 工作必引的 reference;Weaknesses 里列的 Cosmos 基线不公平、cross-embodiment 说辞过强等问题属于 scope 限制而非 foundational value 的动摇。