Superpowers:一套让AI编程Agent拥有超能力的开发方法论

Jesse Vincent(GitHub 上的 obra)是一个在开源社区深耕二十多年的开发者。他写过键盘固件(Keyboardio 的 Kaleidoscope)、做过邮件客户端(K9-Mail 的核心维护者)、如今在 Prime Radiant 专注于 Agent 开发工具。他在 2025 年 10 月发布了 Superpowers——一个面向 AI Coding Agent 的完整软件开发方法论,以 skills 集合的形式提供,短短时间就冲到 196K stars。

如果你看过我之前写的 mattpocock/skills 那篇文章,你大概已经理解了"skill 文件"这个概念——YAML frontmatter + Markdown 指令集,Agent 读取后按指令执行。mattpocock/skills 提供的是离散的工具(盘问、TDD、架构审查),你需要自己决定什么时候用什么。Superpowers 的思路完全不同:它是一套自动触发的完整开发流程,从你打开 Agent 说出需求的那一刻起,到代码合入主分支为止,每个阶段都有对应的 skill 接管,而且 skills 之间会自动串联。

Vincent 管它叫"让你的 Agent 拥有超能力"。读完你会发现这个比喻不算夸张——它本质上是用一套指令模板,把一个散漫的 Agent 变成了一个遵循完整工程纪律的协作者。

如果说前面的章节是在讲 Superpowers 能做什么,这一节我们要问一个更尖锐的问题:它没有缺点吗?

设计的代价:当流程变成负担

Superpowers 对"先设计再实现"的坚持,在软件工程教科书里能找到完美的理论支撑。但实际开发中,很多有价值的东西是通过"先做出来看看"发现的。你没办法在 brainstorming 阶段预料到用户会怎么用这个功能,因为你自己也没用过它。

Vincent 在设计文档中提到"简单的项目可以写几句话",试图给敏捷留出空间。但实践中,Agent 并不擅长判断"什么叫简单"——它倾向于把一切需求都展开成完整的 brainstorming 流程,因为 skill 告诉它"不要跳过设计"。一个五分钟能写完的 bug 修复,可能要花三分钟回答 Agent 的盘问、两分钟确认设计文档、然后才轮到你期待的那五分钟。对于熟练的开发者而言,这种体验可能更像是"终于教会了 Agent 怎么做事"而非"Agent 帮我把事做了"。

这不是反对设计。这是提醒你:Superpowers 的设计纪律是有摩擦成本的。它最适合的场景是那种"需要多人协作、多天开发、多轮审查"的中大型功能——这种场景下,前期设计投入被后期返工避免所抵消。但对于个人开发者的快速迭代、原型探索、或者"先做个 MVP 看看反响"的项目,Superpowers 的全程流程可能是一种过度工程。

谁在为这套方法论买单?

Superpowers 的 token 消耗模型值得算一笔账。以 subagent-driven-development 模式为例,每个任务触发至少三次 Agent 调用(实现 + spec 审查 + 代码审查),如果有问题还要走审查修复循环。对于一个 10 个任务的中等功能,保守估计 30-50 次 Agent 调用。用小模型跑机械任务可以降低成本,但小模型在 spec 理解和代码生成上的质量下降会反过来增加修复循环的次数——成本可能只是从 token 账单转移到了你的等待时间上。

这引出了一个更根本的问题:Superpowers 的受众到底是谁? 是那些已经熟练掌握传统软件工程方法、现在想让 Agent 替代自己执行重复性工作的资深开发者?还是那些缺乏工程经验、需要一套自动化流程来弥补纪律缺失的新手?Vincent 在 README 中说这套流程让 Agent "像一个有热情但品味差、缺乏判断力、不熟悉项目上下文、还讨厌写测试的初级工程师"。问题是——如果你自己都不知道怎么带一个初级工程师,你有多大把握带好一群 AI 初级工程师?

这不是怀疑 Superpowers 的价值。196K 的认可不可能全是盲目的。这是说,Superpowers 在"降低门槛"这件事上可能做了一个错误的承诺。它降低的是 Agent 写代码的组织门槛——不用手动组织 subagent、不用人工审查每个任务的 spec 合规性。但它并没有降低——甚至可能提高了——对使用者的工程判断力要求。你需要判断 Agent 的设计方案是否合理、需要决定哪些审查意见是有效的、需要在 subagent 报 BLOCKED 时诊断根因。这些能力恰恰是传统软件工程中最难培养的部分。

Superpowers 是一个值得认真对待的工程实验。但对待它的最好方式,也许不是把它当作答案,而是把它当作一个起点——理解它的设计意图,然后根据自己的项目和能力,裁剪出一套属于你自己的流程。就像 Vincent 在文档末尾写的那样,这不是宗教。这是一套工具。工具的意义不在于被信仰,而在于被使用、被修改、被超越。

六、FAQ

Q1:Superpowers 的 brainstorming 是不是太"重"了?给一个 todo list 也要走完整流程?

Superpowers 的立场很明确:简单的需求恰恰是最容易因为未检验假设而翻车的地方。"加一个 todo list"——存储在哪?本地还是云端?需要同步吗?排序规则是什么?这些假设如果在实现中途才发现不对,返工成本远超 brainstorming 那几分钟。但设计文档的长度可以按复杂度缩放——简单的需求写几句话就行,不需要长篇大论。

Q2:子 Agent 的两级审查(spec + code quality)会不会太费 token?成本怎么控制?

这是 Superpowers 最明显的成本来源——每个任务要派 1 个实现 agent + 2 个审查 agent。但它采用了"用最便宜的模型做最简单的事"的策略:机械性实现任务用小模型,审查任务用标准或强模型。而且 Vincent 的核心理念是"早发现比晚修复便宜"——在子 Agent 阶段拦截问题,比合并后 debug 省 token。实际使用中,只要任务拆得够细(2-5 分钟一个),单任务的审查成本是可控的。

Q3:Agent 在 subagent-driven-development 模式下真的能自主跑一两个小时?会不会跑偏?

会跑偏,但有机制防范。第一道防线是 spec——每个任务都对照 spec 验证合规。第二道防线是两级审查——如果实现 subagent 的理解有偏差,审查 subagent 会挡下来。第三道防线是实现 subagent 有四种状态报告(DONE / DONE_WITH_CONCERNS / NEEDS_CONTEXT / BLOCKED),遇到问题会主动升级而不是硬撑。Vincent 提到"一两个小时"是比较顺利的情况,实际使用中还是会时不时需要你介入回答 subagent 的问题。

Q4:TDD 的"事先写的代码必须删除"这条铁律是不是太极端了?

这不是道德洁癖,是一个实用的工程判断。测试后写的代码有一个根本问题:你永远不知道测试是否真正捕捉到了正确的行为——因为测试一写就通过。只有先看到测试因为"功能缺失"而失败(不是语法错误),你才能确认这个测试确实在测你要实现的东西。如果保留了先写的代码再做测试,你实际上是在"对着实现写测试"而非"对着需求写测试",很容易测的是实现细节而非行为。

Q5:Superpowers 适合老项目还是新项目?

都适合,但老项目需要注意一点:brainstorming 的"探索项目上下文"阶段会读取现有文件、文档和最近提交来理解代码库。如果老项目的代码结构混乱、缺乏模式,Agent 可能需要更长的探索时间,提出的方案也可能不够精准。建议在老项目中先用一次 brainstorming 走完整流程,看看 Agent 对代码库的理解程度,再决定是否全面采用。

Q6:多个 Agent 平台都支持,实际体验有差异吗?

有。Superpowers 的 skills 是通用的 Markdown 指令,但不同 Agent 对 skill 的"理解深度"和"执行纪律"不同。Claude Code 对 subagent 的支持最成熟(Superpowers 最早就是为 Claude Code 设计的),Codex CLI 的执行速度更快但 TDD 纪律偶尔会松动。实际使用中建议用 Claude Code 做主 Agent、Codex 做实现 subagent 的混合模式。

Q7:我可以只装部分 skill 吗?比如只用 brainstorming 和 TDD,不用子 Agent 编排?

技术上可行——skills 是独立的 .md 文件,你可以选择性安装。但 Superpowers 的很多 skill 之间有硬依赖:subagent-driven-development 依赖 writing-plans 产出的计划格式,writing-plans 依赖 brainstorming 产出的 spec 路径约定。拆开用的结果可能是 skill 之间的衔接断裂,导致流程中断。如果你只需要部分功能,更推荐用 mattpocock/skills 那种独立组合式的 skill 集合。

Q8:和 mattpocock/skills 能共存吗?

可以,但需要留意冲突点。两者的 TDD skill 都会在你写代码时被触发,可能产生竞争。建议的做法是:用 Superpowers 作为主要工作流(覆盖 brainstorming → 实现 → 合入的完整链路),把 mattpocock/skills 中的 /diagnose/improve-codebase-architecture/prototype 等 Superpowers 没有覆盖的 skill 作为补充工具。两者用的都是 skill 文件格式,在同一个项目中安装不会相互覆盖。

参考资料

PRD → Goal → After-Goal:AI 辅助全流程研发实践

想给大模型训推任务灵犀诊断平台增加「自我演化」的功能,尝试使用claude code的最新的/goal命令,记录从需求拆解到代码合入的完整流程,供同学参考。

最近两周codex、hermes相继发布/goal斜杠命令,这一周 claude code也不甘示弱,跨速发布了它的 /goal 斜杠命令。本文将/goal斜杠命令 + /prd技能 + /after-goal技能,实现了一个产品特性研发全自动化的流程,探索出一个AI+实践的新案例。

背景

01-背景

在百度内部研发场景中,一个功能从需求到上线通常经历:写 PRD → 拆卡片 → 写代码 → 提 CR → 合入 → 关卡片。这套流程环节多、工具分散(iCafe、iCode、Gerrit),每一步都要手动操作,容易遗漏步骤。

借助 Claude Code 的 Skill 机制,我们可以将这套流程固化成三个阶段,每个阶段对应一个 Slash Command:

阶段 命令 做什么
需求拆解 /prd 生成 PRD 文档,拆分为可实现的 iCafe 卡片

阅读全文

Goal, goal, goal! 三个智能体几乎同时推出的新功能

一个巧合,还是一个拐点?

2026 年 4 月底到 5 月中旬,AI 编程助手的赛道上发生了一件罕见的事:三家最活跃的智能体——OpenAI 的 Codex CLI、Anthropic 的 Claude Code、以及 Nous Research 的 Hermes Agent——在不到两周的时间窗口内,先后推出了各自的 /goal 斜杠命令。

这并非简单的功能追赶。/goal 背后代表的,是 AI 编程助手从"你问我答"的工具,走向"你定目标,我来完成"的自主智能体的关键一步。三家几乎同时落子,说明行业对这一方向的共识已经形成:持久化目标追踪 + 自主循环执行,将是下一代 AI Agent 的标配能力。

本文将从技术实现、设计哲学和行业趋势三个维度,拆解这三个 /goal 命令的异同,试图回答一个问题:当 AI 学会了自己"定目标、追目标、达目标",开发者的角色将如何改变?


一、OpenAI Codex CLI:最工程化的目标系统

发布时间:2026 年 4 月 30 日(Codex v0.128.0)

Codex 的 /goal 是三者中架构最精密的。OpenAI 用 5 个 PR、约 15,000 行代码,在 10 天内完成了整个实现。据 OpenAI CEO Greg Brockman 的描述,这是"built-in Ralph loop++"——把社区里流行的自主循环模式直接做进了产品。

阅读全文

当 Karpathy 说"Wiki 能杀死 RAG",整个 AI 界花了五周时间证明他可能是对的

当 Karpathy 说"Wiki 能杀死 RAG",整个 AI 界花了五周时间证明他可能是对的

2026年4月4日,Andrej Karpathy 在 GitHub 上发布了一段不到3000字的文字。没有代码,没有论文,没有基准测试——只有一个想法。

五周之后,这段文字收获了超过5000颗 Star、5000次 Fork,以及评论区里660多条回复。十几个开源项目从中破土而出,一批创业公司以此为核心融资,YouTube 上出现了数十个深度解析视频,中文技术社区里"LLM Wiki"四个字的搜索量在一个月内翻了四十倍。

这一切发生得如此之快,以至于很多人还没来得及搞清楚一个问题:Karpathy 到底说了什么?


一个简单到令人不安的观察

Karpathy 的核心论点可以用一句话概括:RAG 是一种没有记忆的知识获取方式。

检索增强生成(Retrieval-Augmented Generation)是当前 AI 行业最主流的知识管理范式。它的原理很直接——你上传一堆文件,当你提问时,系统从文件中检索出相关片段,让大模型基于这些片段生成回答。NotebookLM、ChatGPT 文件上传、几乎所有的企业级 AI 知识库,都走这条路。

阅读全文

Codex CLI 最佳实践:从入门到精通

Codex CLI 最佳实践:从入门到精通

OpenAI Codex CLI 是一款运行在终端中的 AI 编程智能体,采用 Rust 编写,主打高性能与高度可配置性。但工具再强,用不好也是白搭。这篇文章不是参考文档——它是一份实战经验总结,告诉你怎么把 Codex 用出最大价值。


一、心态转变:别把 Codex 当一次性助手

这是最重要的一条。OpenAI 官方说得明白:当你不再将 Codex 视为一次性的助手,而是将其视为一个可以随着时间推移不断配置和改进的队友时,它的效果会最好。

具体来说,这条演进路径是这样的:

  1. 给正确的任务上下文 — 每次对话的基础
  2. 用 AGENTS.md 做长期指导 — 不再重复啰嗦
  3. 配置 Codex 匹配你的工作流 — 省去每次手动设置

阅读全文

我把 Karpathy 的 AutoResearch 搬到了软件开发领域,效果炸了-纽约时报风格

他把 Karpathy 的自动研究方法搬到了软件开发领域,然后离开了电脑

一位中国开发者借鉴人工智能先驱的思路,让多个 AI 智能体在无人监督的情况下自主完成代码编写、审核与合并。


撰文 / 2026年5月


三月的一个深夜,旧金山,Andrej Karpathy 在 GitHub 上发布了一个仅 600 行 Python 代码的项目。他没有召开新闻发布会,没有录制精心编排的产品演示,只在仓库里放了一份简洁的说明文档和一段不到十分钟的介绍视频。

阅读全文

Harness Engineering:当 AI Agent 变得足够强大,真正的工程才刚刚开始

Harness Engineering:当 AI Agent 变得足够强大,真正的工程才刚刚开始

2025年11月26日,Anthropic 的工程博客上发表了一篇文章。标题平淡得像一份内部备忘录:"Effective harnesses for long-running agents"。作者 Justin Young 没有宣布新产品,没有展示基准测试的飞跃,只是描述了一件事:如何让 Claude 在跨越多个上下文窗口的长时间任务中不崩溃。

三个月后,OpenAI 发布了自己的版本。他们的团队用三个工程师、零行手写代码,在五个月内构建了一个百万行代码的生产级产品。GitHub 上一个名为 awesome-harness-engineering 的资源库在几周内成为行业里被引用最频繁的文档之一。LangChain 发布了 Deep Agents——一个被明确定义为"agent harness"的开源运行时。Martin Fowler 的网站上出现了专题文章。36氪、知乎、腾讯云开发者社区的中文解析文章接踵而至。

他们都在讨论同一件事。

只是这件事,还没有一个公认的中文翻译。有人叫它"驾驭工程",有人叫它"约束工程",有人干脆不翻译,就叫 Harness Engineering。


一个反直觉的前提

Harness Engineering 的起点是一个令很多人不适的观察:你的 Agent 效果不好,可能不是模型的问题,是你的问题。

更准确地说,是你围绕模型搭建的那层基础设施——或者更准确地说,那层基础设施的缺失。

HumanLayer 的博客用了一个刻薄的标题:"Skill Issue: Harness Engineering for Coding Agents"。文章的核心论点是:大多数人对 AI Agent 的失望,本质上是一种 skill issue——不是模型的 skill,而是使用者的 skill。你没有给 Agent 足够的上下文,没有设置正确的约束,没有提供验证手段,没有建立反馈回路。Agent 失败了,你归咎于模型,但实际上是你的 harness 不够好。

阅读全文

别再用 TODO 管 AI Agent:多智能体协作需要一块真正的看板

别再用 TODO 管 AI Agent:多智能体协作需要一块真正的看板

如果你真的开始把 AI Agent 用进日常工作流,很快会发现一个问题:任务本身不一定难,难的是任务之间的协作能不能可观察可恢复可交接

传统 TODO 列表能记录“有什么事要做”,但很难回答两个更关键的问题:

  1. 这件事为什么卡住?
  2. 下游 Agent 接着做时,应该接收哪些上下文?

Hermes 的 Kanban 系统解决的正是这个问题。它不是把 Trello 或 Jira 简单搬进 Agent 世界,而是把看板变成一个多智能体任务中枢:任务会在 Triage、Todo、Ready、In progress、Blocked、Done 这些状态之间流转,父子依赖可以自动晋升,每次运行都有记录,完成任务时还可以留下结构化的 summary 和 metadata,供下游 Agent 继续使用。

阅读全文

一个桌面应用,让 AI 帮你处理所有 GitHub Issues

Autoresearch 桌面版是一个基于 Tauri v2 + React 的跨平台桌面应用,为 autoresearch 命令行工具提供了完整的图形化操作界面。它让你可以通过直观的 UI 管理 GitHub Issues、配置 AI Agent、监控自动化运行过程、查看历史记录,把原来需要手动敲命令的整个流程,变成点几下鼠标就能搞定的事。

下载:https://github.com/smallnest/autoresearch/releases/tag/v0.1.0

初始化项目

https://github.com/smallnest/wxeditor 为例。
我已把wxeditor项目git clone 本地 ~/workspace/mdeditor 文件夹。

打开应用后,首先进入概览页面。点击"切换项目"选择你的代码仓库目录,应用会自动检测项目下是否已有 .autoresearch/ 配置目录、program.md 规则文件和 agents/ Agent 配置目录。全部就绪后,页面会用绿色的状态提示告诉你"配置完整,可以开始使用"。

阅读全文

Hermes Agent 最大的彩蛋,90% 的人不知道这些斜杠命令

Hermes Agent 提供了大量的斜杠命令和内置的Skill——不仅打通了 Telegram、Discord、飞书等多个消息平台,还在会话管理、技能系统和记忆机制上引入了不少新玩法。今天我把 Hermes 的斜杠命令体系完整梳理一遍,按使用频率分类,方便大家各取所需。

Hermes Agent 是由 Nous Research 打造的自改进 AI Agent,内置学习循环、跨会话记忆、技能系统、任务调度和多平台消息网关。支持 OpenRouter(200+模型)、Anthropic、OpenAI、GLM、MiniMax 等任意 LLM Provider,一条命令安装,Linux/macOS/WSL2/Termux 均可运行。


一、每天都在用的几个

/new/reset

/new 开一个新会话,/reset 是别名。如果想换模型,直接 /new gpt-4o 或者 /new claude-opus 都可以,支持模糊匹配。

阅读全文