Helix 02: A Unified Whole-Body Loco-Manipulation VLA

Summary

Helix 02: Full-Body Autonomy

核心: 把 Helix 从「上半身 VLA」扩展为「全身 VLA」——单一神经网络从 pixels 直接控制整机（腿+躯干+臂+手），统一 walking、manipulation、balance

方法: 三层 S0/S1/S2 分时层级。S0（1 kHz，10M 参数）由 1000+ 小时人类动作数据 + sim2real RL 学到的 whole-body controller，替换 109,504 行手写 C++；S1（200 Hz）transformer 从所有 sensors（头/掌相机 + 指尖触觉 + 全身 proprio）→ 全身 joint targets；S2 做场景理解和语言规划

结果: 单一 demo——4 分钟、61 个连续 loco-manipulation 动作的洗碗机装卸；四个 dexterous 任务（拧瓶盖 / 取药片 / 5 ml 注射器配量 / 杂堆中取金属件）作为定性展示。无定量指标，无 baseline，无 ablation

Sources: website

Rating: 2 - Frontier。架构方向（S0/S1/S2 hierarchy + 触觉/掌相机 + 全身 end-to-end）切中 humanoid VLA 前沿，但只是 company blog 级 demo，缺技术细节和可验证证据，待技术报告或第三方复现

Key Takeaways:

Loco-manipulation 是 humanoid 核心瓶颈: 业界 demo 多停留在 short-horizon 行为（跳/跳舞/瑜伽），且非 steerable——靠 offline plan replay，物体偏移就 collapse。传统 pipeline 把 locomotion 和 manipulation 拆成独立 controller 加 state machine 拼接，handoff 慢且 brittle。Helix 02 主张「单一学习系统整体推理整机」
新加一层 System 0: 在原 Helix 的 S1/S2 下方加 1 kHz 的 whole-body controller。S0 不是手写平衡控制器，而是从人类动作数据中学到的 motion prior——这是 humanoid 控制层”去手写化”的代表
All sensors in, all actuators out: S1 从仅头相机+关节扩展到头相机+掌相机+指尖触觉+全身 proprio → 全身 joint 输出。掌相机解决头部相机遮挡，指尖触觉（3g 力分辨率）支持力调制抓取
依赖 Figure 03 新硬件: 掌相机和指尖触觉是 Figure 03 才有的硬件能力，本文是该硬件首次被神经策略消费的报告
“single neural network” 措辞要打折看: 博客在开头 “All sensors in. All actuators out” 那段写”a single unified visuomotor neural network”连接所有 sensor 到所有 actuator；但讲架构时又明确说是 S0/S1/S2 三个网络组成的 hierarchy 在不同时钟跑（且讲 pixels→torque 时用的也是 “hierarchy”）。两种口径并存——前者是宣传话术，后者才是技术描述。此外没披露 S0/S1/S2 是否联合训练，也没披露 demo 的成功率 / 泛化性 / 任务多样性

Teaser. 4 分钟、61 个动作的洗碗机装卸全流程，单网络从机载 sensor 端到端控制，无人工干预、无 reset。

问题设定：为什么 Loco-Manipulation 难

Figure 把 loco-manipulation 列为「robotics 数十年未解的硬问题」，原因不是单独的 locomotion 或 manipulation 难，而是两者耦合无法 clean decomposition：

Lift something and your balance changes; step forward and your reach changes. Arms and legs constrain each other continuously.

业界现状的两个观察：

短视野行为成熟但不 steerable：跳跃、跳舞、瑜伽多为 offline planned motion + 有限 feedback 的 replay。物体位置一变或接触意外，policy collapse
分模块拼接 brittle：walk → stop → stabilize → reach → grasp → walk again 这种 state machine 在 handoff 处脆弱、推理慢、动作不自然

Figure 主张的破解路径：一个统一的学习系统同时推理整机——边走边搬、边伸手边调平衡、错误实时恢复。这正是 Helix 02 的目标设定。

❓ 这段论证里有一个隐含跳跃：「单一学习系统」并不天然等于「能同时推理整机」。后续描述里 S0/S1/S2 仍然是三个独立网络在不同时钟跑——只是接口从 hand-engineered state machine 换成了 latent / joint target。这究竟比传统 hierarchical 强多少，blog 没有给量化对比。

架构：S0 / S1 / S2 三层 + 时钟分离

Helix 02 在原 Helix 的 “System 1 / System 2” 上加了 System 0，三层各自跑在不同时钟：

Layer	频率	职责	数据 / 训练	接口
S2	慢	场景理解、语言、行为 sequencing	(沿用 Helix)	输出 semantic latents 给 S1
S1	200 Hz	Pixels → 全身 joint target	imitation / VLA-style	输入 head+palm cam + tactile + proprio；输出全身 joint target
S0	1 kHz	Whole-body 平衡、接触、协调	1000h 人类动作 + sim2real RL	输入 S1 给的 joint target + 当前状态；输出 actuator 命令

「pixels → torque」的总链路：相机/触觉 → S1 → 全身 joint target → S0 → actuator 命令。

概念澄清：joint target vs actuator command

	Joint target（S1 输出）	Actuator command（S0 输出）
是什么	想让关节”到达”的状态：角度 / 角速度	实际发给电机的物理信号：力矩 / 电流 / PWM
抽象层级	运动学 (kinematic)——只说去哪儿	动力学 (dynamic)——说怎么去
频率	200 Hz	1 kHz（跟得上接触动力学）
是否考虑物理	不管重力 / 惯性 / 接触力	必须算重力补偿 / 惯性 / 摩擦 / 外力

例 1（抬手抓杯子）：S1 说”右肘从 30° 弯到 90°“——只是 6 个角度+角速度目标。S0 接到后必须算：手里 200g 的杯子重力补偿多少？左腿正在迈步、重心偏移、抬手会不会摔？最终输出”右肩 +3.2 Nm、右肘 +1.8 Nm、腰部 -0.5 Nm（反向补偿前倾）……”——每个电机的瞬时力矩。

例 2（拧瓶盖）：S1 输出”腕关节绕 z 轴 60°“；S0 必须根据触觉判断是否打滑、实时调手指抓握电流、协调另一只手施加反扭矩。

类比：汽车巡航控制。Joint target = “我想 100 km/h”；actuator command = “油门 23%、刹车 0%“——油门开度依赖坡度、风阻、当前车速，不是固定映射。

为什么要分两层：(1) 时钟不匹配——电机需要 1 kHz 才稳定，vision-based 的 S1 在 200 Hz 已是上限；(2) 抽象解耦——S1 学”语义动作”（伸手、抓、走），不用学”怎么不摔倒”；S0 专心学动力学和平衡。历史上 actuator command 这一层就是被那 109,504 行 C++（逆动力学 + PID + 平衡控制器 + 摩擦补偿）填的，Helix 02 把它换成神经网络。

System 0: Human-like Whole-Body Control

S0 是核心新增。Figure 的核心 claim 是 S0 替换了 109,504 行手写 C++——即用一个 neural prior 取代了传统人形机器人的整个底层平衡/步态控制栈。

关键参数：

训练数据：1000+ 小时 joint-level retargeted 人类动作数据
网络规模：10M 参数
输入：full-body joint state + base motion
输出：joint-level actuator command @ 1 kHz
训练：纯仿真，> 200,000 个 parallel environment，强 domain randomization；sim2real 直接迁移到全 fleet

关键设计选择：不分别为 walk / turn / crouch / reach 设计 reward function，而是让 S0 直接 track 人类动作。Figure 的逻辑是：模仿人类动作的过程中，policy 自动学到力的协调、姿态调整、平衡维持等通用能力。

❓ “替换 109,504 行 C++” 是非常 marketing 的表述。问题：(1) 这 10.9 万行原本做什么——纯平衡控制？还是包括 motion planning / safety / state estimation？(2) S0 是否还依赖外部 state estimator？(3) sim2real 在 fleet 上的成功率分布是多少？blog 完全没披露。

❓ 「学 human motion 就自动学到平衡」这个 claim 与 humanoid imitation 文献里常见的 reward shaping / 残差校正实践有张力。10M 参数 + sim2real 是否足以在真实接触丰富场景下保持稳定，需要 ablation 或失败案例支持。

System 1: “All sensors in, all joints out”

S1 在 Helix v1 里只控制上身且只读关节+头相机。Helix 02 里：

新增输入：palm cameras（手掌相机）、fingertip tactile sensors（指尖触觉）；保留 head cameras + full-body proprioception
新增输出：腿、躯干、头、双臂、双手腕、单根手指——全身 joint-level 控制
架构：仍然是 transformer，conditioning on S2 latents

新硬件能力（依赖 Figure 03 的本体）：

Palm cameras：head camera 被遮挡时提供 in-hand 视觉反馈
Tactile sensors：每个指尖嵌入触觉，可检测小至 3 克的力（敏感到能”摸到回形针”），支持 contact-aware、force-modulated grasping

❓ Helix 02 是「首次在神经策略中使用这些 modality」——这是 Figure 自己的”首次”，不是全行业的。文献里其他团队（如 TacSL、ALOHA tactile 变体）早已在用触觉策略。读 blog 时要避免被 marketing first 误导。

System 2: Scope Expansion

S2 还是负责场景理解 + 语言 → semantic latents，但可指令的行为 scope 显著扩大。原来：

“Pick up the ketchup.”

现在：

“Walk to the dishwasher and open it” “Carry the bowls to the counter” “Go back to the top rack and pick up the cups”

S2 不再需要 plan 低层 footstep 或显式协调四肢。

结果一：Long-Horizon Loco-Manipulation

主 demo——洗碗机装卸（已嵌于 Summary 顶部），共 4 分钟、61 个连续动作，全自主、无 reset、无人工干预。Figure 自称是 “the most complex autonomous manipulation sequence demonstrated to date”。

Figure 列出该 demo 同时展示的能力：

Locomotion under manipulation constraints：边走边稳定握持脆弱物体
Whole-body as a tool：手被占用时用髋部关抽屉、用脚抬洗碗机门——下肢不只是 locomotion 工具
Bimanual coordination：双手 pick / 转手 / 堆叠 / 放置
Motor range across scales：同一网络产生 mm 级手指动作和 room 级 locomotion——动态范围跨四个数量级
Long-horizon sequencing：61 个动作正确排序，跨分钟保持 task state，含隐式 error recovery

辅助 demo（用脚踢开门 / 用髋部关抽屉的特写）：

❓ 单次 4 分钟成功 demo ≠ 鲁棒 policy。关键缺失：成功率（n 次试验中几次完成）、failure mode、是否人工挑选过 take、Reset 定义（“无 reset” 是指 4 分钟内还是跨 trial？）、跨场景泛化（这台洗碗机以外行不行？）。本质上是 “最佳 take” demo 级证据，影响力指标只能打 demo 折扣。

❓ “61 个 loco-manipulation actions” 的 action 边界由谁定义？人工切分还是网络内部？是否包含小动作（如手指微调）来”凑数”？

结果二：Dexterous Manipulation（触觉 + 掌相机）

四个 fine manipulation 任务，全部自主：

Task 1: 拧开瓶盖 — 双手稳定瓶身 + 持续可控扭矩；触觉调节抓握力避免压碎或滑脱。

Task 2: 从药盒中取出单粒药片 — 头相机常被遮挡，依赖掌相机视觉反馈 + 触觉精抓。

Task 3: 注射器精确推出 5 ml — 力控驱动 + 触觉反馈 + 多指协调稳定。容差紧 + 阻力变化是难点。

Task 4: 从杂堆中取金属件 — 实际场景是 Figure 自家的 BotQ 工厂；物体重叠 / 互相遮挡 / 交互时移动。

❓ “W-WOUT_HAND_SENSING” 文件名暗示这些视频可能是「有触觉 vs 无触觉」的对比——blog 文本没明确解读，但若是对比，会是一个 informative 的隐式 ablation。建议看原网页是否有 split-screen 标注。

关联工作

基于

Helix v1 (Figure, 2025-02): 同样的 S1/S2 框架；Helix 02 加 S0、扩展到全身、增加触觉/掌相机感知。本文是直接续作。原 blog: https://www.figure.ai/news/helix
Figure 03 (Figure, 2025-10): 提供本文所有新硬件能力——掌相机、指尖触觉传感器。Helix 02 是这些硬件首次被神经策略消费

对比 / 同范式

NVIDIA GR00T N1 / Isaac Sim humanoid 家族：同样押注 humanoid VLA + sim2real，但 Figure 强调”单一网络覆盖整机”，而 GR00T 通常 manipulation + locomotion 分头训练后组合
传统 humanoid 控制栈（如 MIT / Boston Dynamics 风格的 MPC + 优化）：Figure 直接对标这类「数十万行手写 C++」的方案，把 S0 作为替代品
Imitation / motion-tracking from human data（如 PHC、H2O、Unitree humanoid demo）：S0 的训练范式（retarget 人类动作 + sim2real RL）与这条线一脉相承，但作为整机 VLA 的底层使用

方法相关

Dual / Hierarchical VLA（System 1 + System 2）：与 Physical Intelligence 的 π0 / π0.5 走 dual-process 路线类似，但 Helix 把”system thinking 时钟分离”做得更彻底（S0 1 kHz / S1 200 Hz / S2 慢）
Tactile-augmented manipulation policies：触觉嵌入 manipulation policy 是活跃方向（TacSL、ALOHA tactile、DexNet 系列）。Helix 02 在 humanoid loco-manipulation 场景下首次组合掌相机 + 触觉 + 全身 control
Long-horizon manipulation：业内已有的多分钟 long-horizon 工作（如 RT-X、AnyBody、SayCan 风格）依赖 high-level planner + skill library；Helix 02 主张端到端单网络处理 long horizon，更激进

论文点评

Strengths

架构方向选对: S0 layer 把”学到的 motion prior”作为整机 VLA 的底层，与”端到端 single policy”和”分模块手写控制”之间走了一条更平衡的路。在 humanoid 上这是合理的归纳偏置——人也是「平衡是反射 + 上层是任务规划」
触觉 + 掌相机的工程落地: 把 fingertip tactile（3g 分辨率）和 palm camera 整合进单一 policy，且能跑通拧瓶盖 / 取药片 / 5ml syringe 这类 contact-rich 任务，是真功夫——多数 humanoid 团队还在用 RGB-only policy
Long-horizon demo 有视觉冲击力: 4 分钟 61 步无 reset 的 dishwasher 任务，无论挑过多少 take，都比业内常见的 30 秒 manipulation snippet 走得更远
“全身作为工具”的范式信号: 用髋关抽屉、用脚抬门——这种”非典型 affordance”通常被 manipulation policy 忽略，是 generalist humanoid 的应有姿态

Weaknesses

Marketing-grade evidence: 完全没有定量指标——无成功率、无 baseline、无 ablation、无失败案例分析、无跨场景泛化测试。“the most complex demonstrated to date” 这类话只能算 advertising
关键技术细节缺失: S0/S1/S2 是联合训练还是分阶段？S1 的训练数据规模和来源？S2 用什么 VLM？S0 的 sim2real success rate 在 fleet 上分布？data scaling 曲线？这些 paper 必备信息一律 null
“109,504 行 C++ 替换” 是话术: 这 10.9 万行原本承担什么职责没说清。可能包括 state estimation / safety guard / hardware abstraction 等仍需保留的部分，单纯说”被神经网络替换”是 oversimplified
没有技术报告: Helix v1 在 2025-02 时还出过 technical report（社交媒体公告但未发 arXiv），Helix 02 当前完全是 marketing blog 形式。一年后回看可能有 paper，但当前无法严肃评估
依赖封闭硬件: 触觉 + 掌相机只在 Figure 03 上有，社区无法复现或独立验证

可信评估

Artifact 可获取性

代码: 未开源
模型权重: 未发布
训练细节: 仅高层描述（S0 参数 10M / 训练数据 1000h / 200k env 仿真），缺数据配比、超参、训练步数、loss 曲线
数据集: 未说明（1000h 人类动作数据来源未披露）

Claim 可验证性

✅ 能跑 4 分钟洗碗机装卸 demo：视频可见
✅ 触觉 + 掌相机 + 全身 control 的硬件存在并被使用：Figure 03 已发布，视频展示了 fine manipulation
⚠️ “61 actions long-horizon”：action 切分定义不明，可能凑数；单次 demo 不代表稳定能力
⚠️ “a single unified visuomotor neural network … all sensors … all actuators”（开头宣传段原话）：与同篇的架构描述自相矛盾——后者明确说是 S0/S1/S2 三个独立网络的 hierarchy，且讲 pixels→torque 时用的也是 “hierarchy” 而非 “single network”。是否联合训练为可微链路，blog 未说
⚠️ “S0 替换 10.9 万行 C++“：替换比例不明，原代码职责模糊
❌ “the most complex autonomous manipulation sequence demonstrated to date”：竞品（NVIDIA GR00T demo、π0.5 长时任务等）有可比 demo，且无统一 benchmark 支撑”most complex”
❌ “first time neural policies depend on these modalities”：Figure 内部首次，但行业内触觉 policy 已有多年工作

Notes

Helix v1 (2025-02) + Helix 02 (2026-01) 节奏：约一年一次的 major release，与 π0 / π0.5 / GR00T 系列节奏类似——humanoid VLA 进入按年迭代的 cadence
值得跟进的开放问题：(1) S0 这种 1 kHz neural controller 是否会进 arXiv 形成可引论文（独立成单点贡献）；(2) Figure 是否会发布 Helix scaling laws（数据 / 参数 / 任务复杂度）
给自己的 reminder：company blog 默认按 rating=2 上限处理——除非后续有技术报告 + 第三方复现，否则不升 3。这与 demo-level 证据的本质相符

Rating

Metrics (as of 2026-05-11): citation=N/A（非 arXiv，无 paper 源）, influential=N/A, velocity=N/A; HF upvotes=N/A（非 HF paper）; github N/A（未开源）

分数：2 - Frontier 理由：架构方向（learned whole-body motion prior + 全身 VLA + 触觉/掌相机）与 humanoid VLA 前沿一致，作为 Helix v1 的直接续作具有 reference 价值；但作为 company blog 缺技术细节、缺定量证据、无开源，离 “Foundation” 还差一份技术报告 + 第三方复现。不属于 Archived，因为方向选择本身对跟进 humanoid VLA 的研究判断有信息量。

MindFlow

Explorer