Summary
提出 SayCan 框架,将 LLM 的语义知识(“Say”)与 robot affordance functions(“Can”)结合,使 mobile manipulator 能根据高层自然语言指令执行 long-horizon 任务。LLM 提议可能的 skill sequences,affordance function 过滤出在当前物理环境中可行的动作,实现 language grounding。
Problem & Motivation
LLM 拥有丰富的语义知识(如”清理桌子”需要哪些步骤),但缺乏对物理世界的 grounding——它不知道当前环境中有哪些物体、哪些动作可执行。直接用 LLM 输出的 plan 往往 “reasonable but not applicable”。核心问题:如何将 LLM 的 high-level reasoning 与 robot 的 low-level capabilities 对齐?
Method
架构:Say × Can = Grounded Plan
Say(LLM scoring):
- 给定 high-level instruction 和 task history,LLM 对每个 candidate skill 进行 likelihood scoring
- 本质上是用 LLM 的条件概率 P(skill | instruction, history) 评估语义合理性
Can(Affordance function):
- 每个 pretrained skill 有对应的 value function V(s),评估在当前 state s 下该 skill 成功执行的概率
- Affordance = 当前环境中 skill 的可执行性
Combined scoring:
- Score(skill) = P_LLM(skill | instruction, history) × V(skill | state)
- 在每一步选择 score 最高的 skill 执行
- 形成 iterative planning:执行一个 skill → 更新 state → 选择下一个 skill
Skill library:
- 包含 551 个 pretrained skills(navigation、pick、place 等)
- 每个 skill 通过 behavior cloning / RL 在真实 robot 上训练
- 在 Everyday Robot mobile manipulator 平台上部署
平台
- Google Everyday Robot(mobile manipulator)
- 能在办公环境中 navigate + pick/place 物体
Key Results
- PaLM-SayCan 正确规划率:84%
- 端到端执行成功率:74%
- 比无 affordance grounding 的 PaLM 减少 50% 错误
- 支持 chain-of-thought prompting、多语言指令
- 从 FLAN 到 PaLM 升级后性能显著提升
Strengths & Weaknesses
Strengths:
- 优雅地将 LLM 知识与物理世界对齐
- Affordance grounding 思想影响深远,成为 embodied AI 的基础范式
- 在真实 mobile manipulator 上验证,非纯 simulation
- Skill library 方案使系统 modular 且 scalable
Weaknesses:
- 依赖大量 pretrained skills(551 个),每个需要单独训练
- Skill library 是 closed-set 的——无法处理 library 外的动作
- Navigation 和 manipulation skills 完全独立训练和执行
- 缺乏 spatial/scene understanding——不建图、不做 SLAM
- Value function 作为 affordance 的 proxy 可能不准确
Mind Map
mindmap root((SayCan)) Problem LLM 缺乏 physical grounding High-level instruction → Low-level execution Method Say: LLM scoring P(skill | instruction, history) PaLM / FLAN Can: Affordance function Value function V(s) Physical feasibility Combined: Say × Can Iterative skill selection Skill Library 551 pretrained skills Navigation + Pick + Place Behavior cloning / RL Results 84% correct planning 74% execution success 50% error reduction
Notes
- SayCan 是 LLM-grounded robotics 的奠基性工作,其 “Say × Can” 的 scoring 机制至今仍是 embodied AI task planning 的基础范式。
- 关键局限:skill library 是 closed-set,这正是 VLA(如 RT-2)要解决的——从 separate skills 到 unified foundation model。从 SayCan → RT-2 → π₀ 的演进清晰展示了这一趋势。
- 对 VLN-VLA 统一的启示:SayCan 展示了 high-level LLM planning + low-level skill execution 的 hierarchical 架构,但 navigation 和 manipulation 仍是 separate skills。真正的统一需要一个能同时输出 navigation 和 manipulation actions 的 foundation model。