Summary
TidyBot 利用 LLM 的 few-shot summarization 能力,从少量用户示例中归纳出 generalized preference rules,指导 mobile manipulator 将物品放置到个性化的目标位置。在 benchmark 上对 unseen objects 达到 91.2% accuracy,真实机器人实验达到 85.0% success rate。
Problem & Motivation
家庭整理任务中,物品放置偏好高度个性化(不同人对同类物品的归类方式不同),传统方法要么需要为每个物品手动指定位置,要么依赖大量众包数据训练个性化模型。核心问题是:如何从极少量示例中学习可泛化的用户偏好?作者观察到 LLM 天然具备从具体实例中归纳抽象规则的 summarization 能力,将其引入机器人个性化场景。
Method
- Two-stage LLM pipeline:
- Summarization stage: 用户提供少量文本示例(如”黄色衬衫放抽屉,深紫色衬衫放衣柜”),LLM 通过 code-completion prompt 归纳为高层规则(如”浅色衣服放抽屉,深色衣服放衣柜”)
- Application stage: 对新物品,用归纳的规则预测放置位置,无需 retraining
- Robot system pipeline:
- Overhead camera + ArUco marker 定位机器人,ViLD 检测地面物品
- 靠近物品获取 egocentric close-up image
- CLIP 将物品分类到 LLM 归纳的 category 中(关键:LLM summarization 自动生成候选类别,减少分类难度)
- LLM 根据规则确定目标 receptacle 和 manipulation primitive
- 执行 pick-and-place 或 pick-and-toss
- Robot platform: Holonomic mobile base + Kinova Gen3 7-DoF arm + Robotiq parallel-jaw gripper
- Manipulation primitives: 手写的 pick-and-place / pick-and-toss,仅支持 top-down grasps
- LLM: text-davinci-003(GPT-3.5 系列)
Key Results
- Benchmark(96 scenarios, 672 unseen objects):
- Summarization: 91.2% accuracy(unseen),显著优于 CLIP embeddings 83.7%、examples-only 78.5%
- 按 sorting criteria 分:category 91.0%, attribute 85.6%, function 93.9%, subcategory 90.1%, multiple 93.5%
- Human-written summaries 达 97.5%,说明 LLM summarization 仍有提升空间
- Commonsense-only baseline 仅 45.6%,证明个性化的必要性
- Human evaluation(40 participants, 960 evaluations): 46.9% 偏好本方法 vs 19.1% 偏好 CLIP embeddings
- Real-world(mobile manipulator):
- 整体 success rate 85.0%
- Overhead camera 定位 92.5%,物品分类 95.5%,LLM 选择 100%,primitive 执行 96.2%
- 每个物品处理时间 15-20 秒
- Visual model 对比: CLIP + LLM-summarized categories 95.5% >> ViLD 76.1% >> OWL-ViT 45.9%
Strengths & Weaknesses
Strengths:
- Problem formulation 清晰且实用:从”个性化偏好泛化”角度切入,避免了大规模数据收集
- LLM summarization → category generation → CLIP classification 的 pipeline 设计巧妙,summarization 同时简化了下游视觉分类的难度
- 实验设计全面:benchmark + human eval + real-world 三层验证,ablation 充分
- Human-written summary 作为 upper bound 的对比很有说服力
Weaknesses:
- 系统工程性强但方法创新有限:核心 contribution 是用 LLM 做 few-shot summarization,这更像是一个 application insight 而非方法论突破
- Manipulation pipeline 过于简化:手写 primitives、top-down grasps only、已知 receptacle 位置——这些假设大幅降低了问题难度,离真实家庭场景差距较大
- Scalability 存疑:每个用户需要单独提供示例,多用户/偏好变化场景未讨论
- LLM 依赖强且不可控:summarization 质量完全取决于 LLM,LLM 偶尔列举而非归纳(文中承认),且无纠错机制
- Evaluation 局限:benchmark 的 sorting criteria 较简单(color/category/function),未覆盖更复杂的组合偏好或上下文依赖偏好
Mind Map
mindmap root((TidyBot)) Personalization Few-shot user examples LLM summarization → rules Generalize to unseen objects LLM Pipeline Summarization stage Code-completion prompt text-davinci-003 Application stage Rule-based prediction Perception Overhead camera + ViLD Egocentric CLIP classification LLM-generated categories Robot System Holonomic mobile base Kinova Gen3 7-DoF arm Pick-and-place / pick-and-toss Results 91.2% benchmark accuracy 85.0% real-world success Human evaluation preferred
Notes
- 这篇文章的核心 insight——LLM 可以从具体实例中归纳抽象规则——在 2023 年有一定新意,但到 2024-2025 年已经是常见 pattern。其价值更多在于提出了 personalized robot assistance 这个问题 framing
- Rating 3 的原因:问题重要且 well-motivated,但方法本身(prompt engineering + 简化 manipulation)的 technical depth 有限,contribution 偏 system/application
- 与 SayCan、Code-as-Policies 等工作的关系:都是 LLM-for-robotics 的早期探索,TidyBot 聚焦 personalization,但 manipulation 部分远不如后续 VLA 工作
- 值得关注的后续问题:如何在 preference 随时间演变时持续学习?如何处理 conflicting preferences?