Overview

2026 年 3 月前后,以 Karpathy 的 autoresearch 发布为标志,“AI 自主做科研”从概念走向可落地的开源工具链。本文梳理 8 款代表性项目,从核心定位、技术架构、全流程能力、落地成本、适用场景做深度横向对比。


一、核心参数全景对比

项目核心定位技术架构全流程覆盖开源部署门槛
Karpathy autoresearchLLM 训练专属极简实验迭代三文件架构(固定评估 + 可编辑沙盒 + 指令层),单指标棘轮仅实验迭代与评估MIT极低
AutoResearchClaw端到端「一句话出论文」8 相位 23 阶段流水线,多 Agent 辩论,Docker 沙箱,4 层引用校验文献→假设→实验→论文→评审
EvoScientist带长期记忆的自进化 AI 科研团队三 Agent(RA/EA/EMA)+ 双持久化记忆库全流程,核心强化跨项目经验沉淀部分较高
ARIS轻量夜间科研自动化双模型对抗(executor + reviewer),Markdown 技能集文献综述、论文修改、审稿回复、轻量实验脚本极低
OpenLAIR Dr. ClawGUI 科研平台,科研版 NotebookLMWeb UI + 模块化技能插件 + 多项目管理文献管理、笔记、实验、论文,主打人机协同AGPL-3.0
Orchestra SKILLs + Research-Claw科研技能库 + 日常管理70+ 预封装 skill + 自托管助手 + Overleaf 同步实验工程化 + 文献/deadline/写作协同低-中
The AI Scientist端到端科学发现标杆多 Agent 闭环 + 贝叶斯优化实验 + 学术规范校验全流程,从开放式发现到完整论文极高
uditgoenka autoresearchKarpathy Loop 的泛化版 Claude Code 技能8 条铁律协议 + 9 命令集 + Git-as-memory + Guard 机制任意可量化任务的自主迭代优化MIT极低

二、技术路线与设计哲学

五大技术流派,分化源于对「AI 在科研中的角色」的不同定位:

1. 极简单任务派:Karpathy autoresearch

  • 哲学:AI 收敛到科研中最机械的实验迭代环节,人类把控方向与评估标准
  • 技术核心:冻结评估标准(prepare.py 不可改),Agent 仅改 train.py,每次 5 分钟固定时长,同一标尺公平对比,杜绝 AI 作弊
  • 范式转变:从「人写代码→跑实验→改代码」到「人定规则→AI 做循环」

2. 泛化迭代派:uditgoenka autoresearch

  • 哲学:Karpathy Loop 的核心不在 ML,而是「改→验→留/弃」循环本身——泛化到任何可量化任务
  • 技术核心:8 条铁律(原子修改、机械验证、自动回滚、Git-as-memory)+ Guard 回归防护 + 9 个专用命令覆盖代码/安全/文档/营销
  • 范式转变:从「ML 专属实验循环」到「通用自主优化引擎」

3. 全流程端到端派:AutoResearchClaw & The AI Scientist

  • 哲学:AI 是完整的「虚拟研究员」,人仅提供 idea,全程零干预
  • 技术核心:科研工作流标准化拆解 → 多 Agent 分工 → 多层校验解决幻觉/虚假引用/不可复现三大痛点
  • 范式转变:数周科研压缩到数小时

4. 进化记忆派:EvoScientist

  • 哲学:核心瓶颈不是单次任务完成度,而是「无法像人类一样积累经验」
  • 技术核心:双记忆库持久化 + EMA 持续复盘 → 主动规避死胡同、复用有效路径
  • 范式转变:从「单次执行」到「持续进化」

5. 工具链赋能派:ARIS / Dr. Claw / Orchestra

  • 哲学:AI 不替代人,做「科研副驾驶」,解决特定痛点
  • 技术核心:可插拔模块,按需组合,不强制全流程自动化
  • 范式转变:平衡自动化与可控性

三、项目深度拆解

3.1 Karpathy — autoresearch

AI 夜间自主改代码、跑实验、看指标,极简轻量,适合自主迭代实验。

维度内容
GitHubkarpathy/autoresearch
规模~630 行 Python,MIT 协议
核心三文件prepare.py(不可变;数据准备 + metric)、train.py(Agent 沙盒)、program.md(自然语言指令)
指标val_bpb(validation bits per byte),词表无关,公平比较不同架构
循环读源码 → 提假设 → 改 train.py → 训练 5 min → 评估 → results.tsv → 保留/回滚 → 下一轮。~12 exp/h,一夜 ~100 exp
实绩2 天 700 实验,发现 20 个可叠加优化,Time-to-GPT-2 从 2.02h → 1.80h(↓11%);Shopify CEO 37 exp 一夜 ↓19%
核心优势极简零冗余;评估与实验代码完全隔离杜绝作弊;单卡 GPU 即可
短板场景极度单一(仅 LLM 训练);无文献/论文能力;无多 Agent 协作
Human ──→ program.md (自然语言指令)
              │
              ▼
         AI Agent (Claude / Codex)
              │
         读 + 改 train.py
              │
              ▼
         GPU 训练 5 min → eval val_bpb
              │
         ┌────┴────┐
       improve?   no → revert
         │
       commit → results.tsv → 下一轮

3.2 AutoResearchClaw

文献→假设→实验→论文全流程自动化,多 Agent 辩论,「Chat an Idea, Get a Paper」。

维度内容
GitHubaiming-lab/AutoResearchClaw
流水线8 相位 23 阶段:研究定义 → 文献检索 → 知识综合 → 假设生成(辩论)→ 实验设计执行 → 分析决策 → 论文撰写 → 引用验证
多视角辩论假设生成、结果分析、同行评审三环节均用 structured multi-perspective debate
知识库6 类 KB(decisions / experiments / findings / literature / questions / reviews)+ 30 天时间衰减
质量守卫NaN/Inf 检测、论文-证据一致性、引用相关性打分、anti-fabrication guard
输出NeurIPS / ICML 模板 LaTeX 论文
文献源arXiv、Semantic Scholar
核心优势全流程零干预覆盖 8 大学科;解决引用幻觉;自动硬件检测与代码自修复
短板算力要求较高(8G+ 显存);创新深度依赖基座模型;学术诚信需人工审核

3.3 EvoScientist

具备记忆 + 进化能力,失败策略存入记忆库,跨项目积累经验。

维度内容
论文arXiv 2603.08127(2026-03-09)
GitHubEvoScientist/EvoScientist
Agent 组成RA(Researcher,idea 生成)+ EA(Engineer,实验执行)+ EMA(Evolution Manager,经验蒸馏)
双记忆模块Ideation Memory:高质量方向 + 失败方向 ② Experimentation Memory:有效策略 + 最佳代码
记忆检索mxbai-embed-large embedding via Ollama 语义检索
评估6 篇论文投 ICAIS 2025,AI + 人类双重评审;novelty / feasibility / relevance / clarity 四维超 7 个 SOTA
核心优势唯一具备长期进化能力;多 Agent 贴合真实科研协作;6 投 6 中
短板架构复杂学习曲线陡;算力存储要求高;轻量任务启动成本高
        ┌───────────────────────────────────┐
        │        Evolution Manager (EMA)     │
        │  ideation memory + exp memory      │
        └──────┬────────────────┬────────────┘
               │ 读取历史经验    │ 写入新经验
               ▼                │
         Researcher (RA)        │
           idea 生成             │
               │                │
               ▼                │
         Engineer (EA) ─────────┘
           实验 + 代码

3.4 ARIS(Auto-Research-In-Sleep)

极简 Markdown 技能集,即插即用,专注文献综述 + 论文修改 + 轻量实验。

维度内容
GitHubwanshuiyin/Auto-claude-code-research-in-sleep
核心理念每个 skill 就是一个 SKILL.md,任何 LLM agent 可读取执行
兼容Claude Code / Codex CLI / OpenClaw / Cursor / Trae / Windsurf
Cross-model Reviewexecutor + reviewer 对抗式协作,克服单模型盲区
文献综述/research-lit:IEEE/ACM/ScienceDirect 优先级、venue 分级、自动用本地 PDF + web 搜索
Obsidian 集成可搜索 vault 中的 paper summary、tag reference、user insights
核心优势即插即用零配置;双模型对抗降幻觉;普通笔电可运行
短板无自主实验执行能力;强依赖 Claude API;全流程自动化弱

3.5 OpenLAIR — Dr. Claw

GUI 科研平台,类科研版 NotebookLM/Cursor,多项目管理,代码新手友好。

维度内容
GitHubOpenLAIR/dr-claw
定位”A Super AI Lab with massive AI Doctors as Assistants”
可视化文献图谱、笔记、任务看板、进度追踪、生成物管理
功能① 文献管理(paper review / literature graph)② Skills Explorer + 全局技能库 ③ 计算资源管理 ④ Research Lab
多后端Codex / Gemini workflows
v1.0.0桌面 + 移动端,skill discovery redesign、taxonomy browsing
LicenseAGPL-3.0(核心开源,商业版闭源)
核心优势图形化零代码上手;适配国内工具链;本地模型 + 商用 API 均可
短板完全自主能力弱需人工引导;高阶功能付费;复杂实验工程化不足

3.6 Orchestra SKILLs & Research-Claw

科研技能库 + 日常管理工具链,解决环境配置痛点。

6a AI-Research-SKILLs

维度内容
GitHubOrchestra-Research/AI-Research-SKILLs
定位70+ 预封装科研 skill,给任意 coding agent 赋能
安装npx @orchestra-research/ai-research-skills
兼容Claude Code / OpenCode / Cursor / Codex / Gemini CLI / Qwen Code
v0.15.0Prompt Guard(Meta 86M,99%+ TPR, <1% FPR)+ 8 语种
覆盖experiment tracking / hyperparameter sweep / model registry / profiling / paper writing 等

6b Research-Claw(nanoAgentTeam)

维度内容
GitHubnanoAgentTeam/research-claw
定位自托管科研助手:论文 + 文献 + deadline + 多渠道通知
Overleaf双向 sync(AI → Overleaf ↔ 协作者)
Sub-Agent自动拆分 researcher + writer,隔离目录,合并后写入主项目
项目记忆跨 session 记住主题、偏好、历史
定时任务daily scan + weekly digest + drift detection
多渠道Telegram / 飞书 / 钉钉 / Email / Apprise
API任何 OpenAI-compatible(GPT / DeepSeek / Qwen / Claude)

3.7 The AI Scientist(Sakana AI)

端到端科学发现标杆,首个通过顶会同行评审的 AI 科研系统。

维度内容
GitHubSakanaAI/AI-Scientist(v1)/ SakanaAI/AI-Scientist-v2(v2)
论文发表于 NatureThe AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
里程碑v2 生成的论文通过 ICLR 2025 workshop 同行评审,平均分 6.33,超过 55% 人类论文(团队出于学术伦理主动撤稿)
v2 改进移除对人类模板的依赖;泛化至多 ML 领域;引入 progressive agentic tree search + experiment manager agent
技术多 Agent 闭环 + 贝叶斯优化实验设计 + 完整学术规范校验
核心优势学术认可度最高(Nature 发表);具备开放式科学发现能力;全流程可审计
短板部署极高(高性能 GPU 集群 + 64G 内存);算力成本极高;迭代速度慢

3.8 uditgoenka/autoresearch — Karpathy Loop 泛化版

把 Karpathy 的实验循环从 ML 训练泛化为 Claude Code 通用自主迭代技能,覆盖代码/安全/文档/营销等一切可量化任务。

维度内容
GitHubuditgoenka/autoresearch(⭐ 2.3k, MIT)
定位”Turn Claude Code into a relentless improvement engine”
版本v1.8.2,125 commits,活跃维护
载体Claude Code 插件(SKILL.md + commands),非独立脚本
安装/plugin marketplace add uditgoenka/autoresearch 一行命令

8 条铁律协议

#规则说明
1Loop until done无界循环或 N 轮
2Read before write先理解上下文再改
3One change per iteration原子修改
4Mechanical verification only只看指标,禁止主观判断
5Auto rollback失败即回滚
6Simplicity preferred更少代码 + 同等效果 = 保留
7Git as memoryexperiment: 前缀 commit,每轮读 git history
8Think harder when stuck卡住时重分析 + 尝试激进方案

9 命令集

命令功能
/autoresearch主循环,无界自主迭代
/autoresearch:plan交互式 setup(目标/范围/指标)
/autoresearch:securitySTRIDE/OWASP 安全审计 + 自动修复
/autoresearch:ship多阶段发布(代码/内容/营销/研究)
/autoresearch:debug假设驱动自主 bug 猎手
/autoresearch:fix迭代修复(tests/types/lint/build)
/autoresearch:scenario12 维度 edge case 探索
/autoresearch:predict5 角色 multi-persona 辩论分析
/autoresearch:learn文档引擎(init/update/check/summarize)

Crash Recovery:语法错误即修不算轮次 → 运行时最多 3 次修复 → 资源耗尽回滚降级 → 无限循环超时自杀

与 Karpathy 原版的核心区别

维度Karpathy 原版uditgoenka 泛化版
载体独立 Python 脚本Claude Code 插件
场景仅 LLM 训练任意可量化任务
指标固定 val_bpb用户自定义
记忆results.tsvGit history + TSV
安全Guard 回归防护 + auto rollback
命令单一循环9 个专用命令
核心优势Karpathy Loop 最忠实的工程化泛化;安装极简;Guard + rollback 更健壮;multi-persona 辩论独创
短板强绑定 Claude Code 不跨 agent;无持久化记忆(仅 git history);无科研专属能力(文献/论文)
Karpathy autoresearch (原始灵感,ML only)
    │
    ├─→ uditgoenka/autoresearch (泛化为通用 Claude Code skill)
    │
    ├─→ AutoResearchClaw (泛化为端到端论文生成)
    │
    └─→ ARIS (泛化为 Markdown 科研技能集)

四、全流程能力量化测评

按科研 6 大环节 10 分制评分:

项目文献调研假设生成实验执行结果分析论文撰写同行评审
autoresearch0310800
AutoResearchClaw988898
EvoScientist9109989
ARIS754689
Dr. Claw865675
Orchestra + Research-Claw049800
The AI Scientist10109101010
uditgoenka autoresearch058700

五、部署门槛与落地成本

项目最低硬件依赖商用 API学习成本综合成本
autoresearch单卡 GPU(4G+)Python + PyTorch可选极低(10 min)极低
AutoResearchClaw8G+ 显存,16G 内存Python + Docker + 学术 API强依赖中(30 min)
EvoScientist多卡 GPU,32G+ 内存Python + 向量 DB + Docker强依赖多 API极高(需工程团队)极高
ARIS普通笔电(8G+ 内存)Claude Code 环境强依赖 Claude极低(即插即用)
Dr. Claw普通笔电(8G+ 内存)一键安装可选极低(GUI)
Orchestra + Research-Claw单卡 GPU(6G+)Python + 对应框架可选
The AI ScientistGPU 集群,64G+ 内存复杂分布式环境强依赖顶级模型极高极高
uditgoenka autoresearch普通笔电Claude Code + Git强依赖 Claude极低(一行安装)极低

六、综合对比一览

项目类型Agent 数记忆/进化UI最佳场景
autoresearch实验循环1CLI有 GPU 的 ML 调参迭代
AutoResearchClaw端到端论文多(辩论)KB + 30 天衰减CLI快速产出论文初稿
EvoScientist自进化科学家3(RA/EA/EMA)✓ 双记忆CLI长期深耕单领域的团队
ARIS技能集2(executor + reviewer)Markdown给现有 agent 快速加技能
Dr. ClawGUI 平台Desktop + Mobile无代码基础 / 多项目管理
Orchestra + R-Claw技能库 + 管理多(sub-agent)✓ 项目记忆CLI + Web + IMML 团队工程化 + 日常管理
The AI Scientist端到端发现多(闭环)CLI顶级机构高严谨性研究
uditgoenka autoresearch泛化迭代 skill1Git historyCLI(Claude Code)任意可量化任务的自主优化

七、选型决策指南

个人研究者 / 学生

画像推荐理由
DL/LLM 方向,高频做模型实验autoresearch极简零成本,通宵跑实验效率最高
硕博投稿期,需改论文/回审稿意见ARIS轻量无门槛,双模型对抗提升质量
无代码基础 / 文科社科Dr. ClawGUI 操作,覆盖文献到论文全流程
需快速验证跨学科想法出论文AutoResearchClaw全流程自动化,一句话搞定
用 Claude Code 做日常代码/内容优化uditgoenka autoresearch泛化迭代,9 命令覆盖代码/安全/文档

科研团队 / 实验室

画像推荐理由
ML 工程化团队,解决环境/部署痛点Orchestra SKILLs海量预封装技能,提升团队工程效率
长期深耕单领域,需沉淀经验EvoScientist长期进化,避免重复踩坑
顶级机构,需高创新高严谨The AI Scientist学术认可度最高,可支撑顶刊研究
多人协作,需日常管理Research-ClawOverleaf 同步 + deadline 追踪 + 多渠道

组合使用建议

这些项目不互斥,可按需组合:

  • autoresearch(跑实验)+ ARIS(文献综述)+ Research-Claw(日常管理)
  • Orchestra SKILLs 作为底层技能层,被 Dr. Claw 或 ARIS 调用
  • EvoScientist(核心研发)+ AutoResearchClaw(快速出初稿)覆盖不同阶段
  • uditgoenka autoresearch(代码迭代优化)+ ARIS(科研特定能力)互补短板

Key Takeaways

  1. 三条路线分化:指标驱动(autoresearch)→ ML 训练调优;泛化迭代(uditgoenka autoresearch)→ 任意可量化任务;流程驱动(AutoResearchClaw / The AI Scientist)→ 论文产出

  2. 记忆与进化是关键差异:EvoScientist 双记忆 + AutoResearchClaw KB 衰减 → agent 不再每次从零开始,是从「工具」到「科研伙伴」的跳跃

  3. Markdown-as-Protocol 成为共识:ARIS 和 Orchestra SKILLs 用纯 Markdown 定义 skill → 跨 agent 可移植,不绑定框架

  4. GUI vs CLI:Dr. Claw 走 GUI 降门槛;autoresearch / ARIS 极简 CLI——看用户画像

  5. The AI Scientist 树立标杆:Nature 发表 + ICLR 评审通过证明 AI 端到端科研的上限,但门槛极高,短期内普通团队难以复制

Open Problems

  1. 实验可复现性:autoresearch 5-min 固定窗口是聪明设计,但多 GPU / 长训练场景如何公平比较?
  2. 学术诚信边界:The AI Scientist 主动撤稿展示了负责任态度,但 AI 生成论文的伦理规范仍需社区共识
  3. 记忆污染:EvoScientist 如果积累错误经验如何清洗?遗忘机制需更好设计
  4. 互操作标准:Markdown-as-Protocol 方向正确,但各家 skill 格式仍不统一
  5. 评估基准:如何客观评估 AI 科研助手?需要系统化 benchmark
  6. Agent 锁定风险:uditgoenka autoresearch 强绑定 Claude Code,ARIS 依赖 Claude API——跨 agent 可移植性仍是未解难题

Sources