MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Summary

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

核心: 多模态多尺度记忆架构，video encoder 做短时记忆 + 语言摘要做长时记忆

方法: 零新参数 video encoder（space-time separable attention + token dropping）+ 高层策略自回归更新语言记忆

结果: 支持 15 分钟长时任务，实现 in-context 策略适应，在灵巧操作上匹配 SOTA

Sources: paper | website

Rating: 2 - Frontier（Physical Intelligence 团队给 VLA 加 multi-scale memory 的代表工作，集成在 π0.6 上，很可能成为 long-horizon manipulation 的必比 baseline，但方法刚发布且未开源，尚未形成 de facto 标准）

Key Takeaways:

Multi-modal memory factorization: 短时记忆用 video encoder 压缩多秒的密集观测（保留细粒度动态和遮挡信息），长时记忆用语言摘要追踪语义事件（如已完成的步骤），两者解耦使得记忆可扩展到十几分钟
Video encoder 零新参数: 通过修改 ViT 的 attention pattern（交替 spatial + causal-temporal attention）并丢弃过去时间步的 token，在不引入新参数的前提下将 ViT 扩展为视频编码器，推理延迟几乎不变
In-context adaptation: 短时视觉记忆使策略能记住近期失败并调整操作策略（如改变抓取高度、切换开门方向），这是无记忆 VLA 无法实现的能力

Teaser. MEM 系统总览：高层策略维护语言记忆跟踪语义事件，低层策略通过 video encoder 编码短时观测序列生成动作

Introduction

当前 VLA 大多只基于当前单帧观测进行动作预测，缺乏记忆能力。然而在复杂的多阶段现实任务中，机器人需要不同粒度的记忆：

短时记忆：记住最近几秒的观测来处理遮挡、理解动态，支持 in-context 策略调整
长时记忆：记住语义层面的事件进展（如食谱中哪些步骤已完成），可能跨越数分钟

将所有历史观测作为密集序列输入策略在长任务中不可行。MEM 的核心 insight 是：有效的记忆架构应该组合多种模态来捕捉不同抽象层次的信息。

MEM 集成到 π0.6 模型中，在多种复杂操作任务上达到 SOTA，并能解决长达 15 分钟的长时任务（厨房清洁、制作三明治等）。

Multi-Scale Embodied Memory for VLAs

Multi-Scale Embodied Memory (MEM)

Figure 0. MEM 系统架构总览：高层策略更新语言记忆（左），低层策略使用 video encoder 编码短时观测（右）

MEM 的目标是训练一个策略 $π (a_{t : t + H} ∣ o_{t - T : t}, g)$ ，基于任务目标 $g$ 和一系列密集观测预测连续动作。核心思想是将动作预测分解为两个层次：

Equation 1. MEM policy factorization

π (a_{t : t + H}, l_{t + 1}, m_{t + 1} ∣ o_{t - T : t}, m_{t}, g) \approx π_{LL} (a_{t : t + H} ∣ o_{t - K : t}, l_{t + 1}, g) \cdot π_{HL} (l_{t + 1}, m_{t + 1} ∣ o_{t}, m_{t}, g)

符号说明： $π_{LL}$ 为低层策略， $π_{HL}$ 为高层策略， $l_{t + 1}$ 为子任务指令， $m_{t}$ 为语言记忆， $K ≪ T$ 为短时观测窗口长度。

含义：低层策略基于短时观测序列（ $K$ 步）和子任务指令生成动作；高层策略基于当前观测和语言记忆生成子任务指令并更新语言记忆 $m_{t + 1}$ 。关键创新在于高层策略不仅预测下一步做什么，还预测应该记住什么。

Language Memory for Long-Term Memory

语言记忆 $m_{t}$ 是对过去语义事件的自然语言摘要。高层策略 $π_{HL}$ 在每次推理时基于当前观测、之前的记忆 $m_{t}$ 和任务目标，预测更新后的记忆 $m_{t + 1}$ 。例如：

$m_{t}$ : I placed a plate in the cabinet and moved to the counter. ↓ $m_{t + 1}$ : I placed a plate in the cabinet, moved to the counter, and picked up a bowl.

训练数据生成：给定带有子任务标注的机器人 episode，将子任务指令及其成功/失败状态输入预训练 LLM，让 LLM 生成每步应保留的相关信息摘要。

记忆压缩是关键设计：LLM 被指示在适当时候移除或压缩信息（如将”我放了一个浅绿碗、一个深蓝碗和一个亮黄碗到右上柜子”压缩为”我放了三个碗到右上柜子”）。压缩减少了训练-推理分布偏移——训练时 episode 通常近乎最优（每个子任务只执行一次），而推理时策略可能多次失败重试同一子任务，导致原始指令序列的分布偏移。压缩版记忆在子任务成功前不更新，天然避免了这种偏移。

Video Encoder for Dense Short-Term Visual Memory

Figure 1. 朴素地将观测序列逐帧编码并输入 VLA backbone 会导致推理延迟急剧增加，video encoder 架构使多帧输入保持在实时推理阈值以下

Figure 2. Video encoder 架构：在标准 ViT 中交替使用 bidirectional spatial attention（白色箭头）和 causal-temporal attention（黑色箭头），并在上层丢弃过去时间步的 token 以压缩输入

Video encoder 的设计要点：

Space-time separable attention：每隔 4 层，在标准 spatial attention 之外添加 temporal attention——对同一 patch 位置跨时间步做 causal attention。计算复杂度从朴素联合 attention 的 $O (n^{2} K^{2})$ 降到 $O (K n^{2} + n K^{2})$
Token dropping：只将当前时间步的表示传递给后续 VLA backbone，丢弃过去时间步的 patch，使 token 数量与单帧 VLA 完全一致
零新参数：不引入额外可学习参数，仅修改 attention pattern 并添加固定正弦时间位置编码。当 $K = 1$ （单帧输入）时，编码器初始化与原始 VLM 完全一致（ $e (0) = 0$ ）

Integrating MEM into the π0.6 VLA

π0.6-MEM 基于 Gemma3-4B VLM 初始化，使用 FAST action token prediction 和 flow-matching action expert（860M 参数）联合训练，梯度不从 action expert 回传到 VLM backbone。

额外设计：

连续状态嵌入：过去的 proprioceptive state 用线性投影编码为连续 embedding（而非文本）， $K$ 步历史只产生 $K$ 个 token
输入分辨率：448×448 px/camera，最多 4 路摄像头
训练策略：预训练时使用 6 帧观测（stride 1s），后训练时扩展到最多 18 帧（54 秒视觉记忆）
推理：使用 real-time chunking (RTC) 进行异步实时推理

Experimental Evaluation

MEM Solves Tasks Requiring Long-Horizon Memory

Figure 3. MEM 在多种长时操作任务上的测试场景，包括准备食谱材料、清洁厨房和制作烤奶酪三明治，记忆跨度长达 15 分钟

两个核心评估场景：

Recipe setup：机器人按详细提示从厨房各处（冰箱、橱柜、抽屉）取出所有食材和器具并放到指定位置。在 42 个食谱上训练，在 5 个未见厨房和未见物体上评估
Clean up kitchen：清理杂乱厨房，包括将物品放入冰箱、擦拭台面、用肥皂和流水洗碗并放到晾架上

Figure 4. 长时任务性能对比和消融实验：无记忆的 π0.6 难以完成这类任务，MEM 的视频记忆和语言记忆缺一不可

消融结论：

去掉 video memory：机器人无法判断擦拭/洗碗已经进行了多久，容易”卡住”
去掉 language memory：机器人无法记住已完成的语义步骤（如食谱中已取出的材料）
Naive language memory（不压缩，直接拼接历史子任务指令）：训练-推理分布偏移严重，性能显著低于压缩版

In-Context Adaptation of Manipulation Strategies

Figure 5. 有记忆的 VLA 能进行 in-context 策略适应（调整抓取高度、改变开门方向），无记忆策略则反复用同一失败策略

两个测试任务：

Chopstick pickup：在非标准桌面高度下拾取筷子，需要在失败后调整抓取策略
Fridge opening：冰箱门开启方向不明确，需要在尝试错误方向后切换

训练方法：收集人类纠正反馈数据（策略失败后人类示范正确策略），将失败尝试保留在短时记忆中进行微调。结果表明有记忆的 MEM-VLA 能有效利用纠正数据学会 on-the-fly 策略调整。

Analysis Experiments

Figure 6. 不同记忆方法在核心记忆能力上的对比：处理部分可观测性、计数、视觉记忆等。只有 MEM 在所有核心能力上都表现优秀

对比方法：

Pool Memory：将所有过去观测用 average pooling 压缩为单个 “memory token”，在需要较长记忆的任务上表现差
Proprio Memory：仅使用 proprioceptive state 历史，在需要记住环境状态的任务上失败
MEM (post-train only)：仅在后训练阶段引入 video encoder，性能明显低于预训练版

Figure 7. 在多样化数据集上预训练记忆能力显著提升 MEM 的记忆利用效果，仅在后训练引入记忆表现较差

关键发现：预训练阶段在多样化的机器人和非机器人视频数据上训练记忆能力至关重要——即使后训练时记忆窗口从 5 秒扩展到 60 秒，预训练的 memory 基础仍然有效。这表明 video encoder 的时序信息提取能力需要在大规模多样数据上充分训练。

Figure 8. MEM 在不需要记忆的高难度灵巧操作任务上也能匹配 SOTA 无记忆 VLA 的性能

MEM 不仅在记忆任务上表现优秀，在不需要记忆的灵巧操作任务（叠衣服、组装纸箱等）上也与 π0.6 持平。作者将此归功于多样化的预训练数据避免了 causal confusion。

关联工作

基于

π0.6: MEM 集成的基础 VLA 模型，Gemma3-4B VLM backbone + FAST action tokens + flow-matching action expert
Gemma3-4B: 预训练 VLM backbone
FAST tokenizer: action token 离散化方法
Real-time chunking (RTC): 异步实时推理方法

对比

Pool Memory: 将历史观测 average pooling 为单个 memory token，aggressive compression 导致长时记忆信息丢失
Proprio Memory: 仅用 proprioceptive state 历史，无法记住环境状态

方法相关

Space-time separable attention: 视频理解领域的 factorized attention 方法，MEM video encoder 的灵感来源
Flow matching: action expert 的训练方法

论文点评

Strengths

问题分解精准：将记忆需求按时间尺度和信息类型分解为 video-based 短时记忆和 language-based 长时记忆，方案简洁且可扩展
Video encoder 设计优雅：零新参数、与预训练 VLM 权重无缝兼容、推理延迟可控，工程上非常干净
语言记忆的压缩机制巧妙解决了训练-推理分布偏移问题，是一个有洞察力的设计选择
评估充分且有说服力：涵盖长时任务（15 分钟）、in-context adaptation、核心记忆能力测试和灵巧操作基准，消融实验清晰

Weaknesses

高层策略的 subtask annotation 依赖：训练语言记忆需要 subtask 级别的语言标注，数据获取成本和标注质量的影响未深入讨论
语言记忆的 LLM 生成质量：训练数据的记忆摘要由 off-the-shelf LLM 生成，但 LLM 选择、prompt 设计、生成质量控制的细节较少
记忆长度的可扩展性：当前验证到 15 分钟，但语言记忆的压缩是否能有效保持到小时级别未知
所有实验在 π0.6 上完成：虽然声称方法通用，但未在其他 VLA backbone 上验证

可信评估

Artifact 可获取性

代码: 未开源
模型权重: 未发布
训练细节: 仅高层描述（提及使用 Gemma3-4B、FAST + flow-matching action expert 860M、训练数据混合策略，但超参和数据配比未详述）
数据集: 私有（teleoperated demonstrations + policy rollouts + human corrections）

Claim 可验证性

✅ MEM 在长时任务上显著优于无记忆 baseline：Figure 4 消融实验有详细数据，10 rollouts/task，报告 mean ± standard error
✅ Video encoder 不增加推理 token 数：架构设计保证当前时间步 token 数与单帧一致，Figure 1 展示延迟对比
⚠️ “state-of-the-art performance across a wide range of complex manipulation tasks”：与 π0.6 对比但未与其他团队的 VLA 对比，且自家 baseline
⚠️ In-context adaptation 的通用性：仅在 2 个任务上验证，样本量（10 rollouts）较小
⚠️ 预训练数据多样性对避免 causal confusion 的归因：仅定性讨论，无控制实验

Notes

Rating

Metrics (as of 2026-04-24): citation=4, influential=1 (25.0%), velocity=2.35/mo; HF upvotes=N/A; github=N/A (无代码仓库)

分数：2 - Frontier 理由：这是 Physical Intelligence 给 π0.6 加 multi-scale memory 的旗舰工作，video encoder 零新参数设计 + language memory 压缩机制都是有实质 insight 的方法选择（见 Strengths 1–3），在 long-horizon manipulation 方向上很可能成为必比 baseline。但论文刚在 2026-03 发布、没有开源代码和权重、所有实验限在 π0.6 自家 backbone 上（见 Weaknesses 4、Artifact 可获取性），社区尚未形成采纳验证，还不到 Foundation 级别；同时方法并非 incremental，明显高于 Archived。

MindFlow

Explorer

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Summary

Introduction

Multi-Scale Embodied Memory for VLAs

Multi-Scale Embodied Memory (MEM)

Language Memory for Long-Term Memory

Video Encoder for Dense Short-Term Visual Memory

Integrating MEM into the π0.6 VLA

Experimental Evaluation

MEM Solves Tasks Requiring Long-Horizon Memory

In-Context Adaptation of Manipulation Strategies

Analysis Experiments

关联工作

基于

对比

方法相关

论文点评

Strengths

Weaknesses

可信评估

Artifact 可获取性

Claim 可验证性

Notes

Rating

Table of Contents