PRD → Goal → After-Goal:AI 辅助全流程研发实践

想给大模型训推任务灵犀诊断平台增加「自我演化」的功能,尝试使用claude code的最新的/goal命令,记录从需求拆解到代码合入的完整流程,供同学参考。

最近两周codex、hermes相继发布/goal斜杠命令,这一周 claude code也不甘示弱,跨速发布了它的 /goal 斜杠命令。本文将/goal斜杠命令 + /prd技能 + /after-goal技能,实现了一个产品特性研发全自动化的流程,探索出一个AI+实践的新案例。

背景

01-背景

在百度内部研发场景中,一个功能从需求到上线通常经历:写 PRD → 拆卡片 → 写代码 → 提 CR → 合入 → 关卡片。这套流程环节多、工具分散(iCafe、iCode、Gerrit),每一步都要手动操作,容易遗漏步骤。

借助 Claude Code 的 Skill 机制,我们可以将这套流程固化成三个阶段,每个阶段对应一个 Slash Command:

阶段 命令 做什么
需求拆解 /prd 生成 PRD 文档,拆分为可实现的 iCafe 卡片

阅读全文

Goal, goal, goal! 三个智能体几乎同时推出的新功能

一个巧合,还是一个拐点?

2026 年 4 月底到 5 月中旬,AI 编程助手的赛道上发生了一件罕见的事:三家最活跃的智能体——OpenAI 的 Codex CLI、Anthropic 的 Claude Code、以及 Nous Research 的 Hermes Agent——在不到两周的时间窗口内,先后推出了各自的 /goal 斜杠命令。

这并非简单的功能追赶。/goal 背后代表的,是 AI 编程助手从"你问我答"的工具,走向"你定目标,我来完成"的自主智能体的关键一步。三家几乎同时落子,说明行业对这一方向的共识已经形成:持久化目标追踪 + 自主循环执行,将是下一代 AI Agent 的标配能力。

本文将从技术实现、设计哲学和行业趋势三个维度,拆解这三个 /goal 命令的异同,试图回答一个问题:当 AI 学会了自己"定目标、追目标、达目标",开发者的角色将如何改变?


一、OpenAI Codex CLI:最工程化的目标系统

发布时间:2026 年 4 月 30 日(Codex v0.128.0)

Codex 的 /goal 是三者中架构最精密的。OpenAI 用 5 个 PR、约 15,000 行代码,在 10 天内完成了整个实现。据 OpenAI CEO Greg Brockman 的描述,这是"built-in Ralph loop++"——把社区里流行的自主循环模式直接做进了产品。

阅读全文

当 Karpathy 说"Wiki 能杀死 RAG",整个 AI 界花了五周时间证明他可能是对的

当 Karpathy 说"Wiki 能杀死 RAG",整个 AI 界花了五周时间证明他可能是对的

2026年4月4日,Andrej Karpathy 在 GitHub 上发布了一段不到3000字的文字。没有代码,没有论文,没有基准测试——只有一个想法。

五周之后,这段文字收获了超过5000颗 Star、5000次 Fork,以及评论区里660多条回复。十几个开源项目从中破土而出,一批创业公司以此为核心融资,YouTube 上出现了数十个深度解析视频,中文技术社区里"LLM Wiki"四个字的搜索量在一个月内翻了四十倍。

这一切发生得如此之快,以至于很多人还没来得及搞清楚一个问题:Karpathy 到底说了什么?


一个简单到令人不安的观察

Karpathy 的核心论点可以用一句话概括:RAG 是一种没有记忆的知识获取方式。

检索增强生成(Retrieval-Augmented Generation)是当前 AI 行业最主流的知识管理范式。它的原理很直接——你上传一堆文件,当你提问时,系统从文件中检索出相关片段,让大模型基于这些片段生成回答。NotebookLM、ChatGPT 文件上传、几乎所有的企业级 AI 知识库,都走这条路。

阅读全文

Codex CLI 最佳实践:从入门到精通

Codex CLI 最佳实践:从入门到精通

OpenAI Codex CLI 是一款运行在终端中的 AI 编程智能体,采用 Rust 编写,主打高性能与高度可配置性。但工具再强,用不好也是白搭。这篇文章不是参考文档——它是一份实战经验总结,告诉你怎么把 Codex 用出最大价值。


一、心态转变:别把 Codex 当一次性助手

这是最重要的一条。OpenAI 官方说得明白:当你不再将 Codex 视为一次性的助手,而是将其视为一个可以随着时间推移不断配置和改进的队友时,它的效果会最好。

具体来说,这条演进路径是这样的:

  1. 给正确的任务上下文 — 每次对话的基础
  2. 用 AGENTS.md 做长期指导 — 不再重复啰嗦
  3. 配置 Codex 匹配你的工作流 — 省去每次手动设置

阅读全文

我把 Karpathy 的 AutoResearch 搬到了软件开发领域,效果炸了-纽约时报风格

他把 Karpathy 的自动研究方法搬到了软件开发领域,然后离开了电脑

一位中国开发者借鉴人工智能先驱的思路,让多个 AI 智能体在无人监督的情况下自主完成代码编写、审核与合并。


撰文 / 2026年5月


三月的一个深夜,旧金山,Andrej Karpathy 在 GitHub 上发布了一个仅 600 行 Python 代码的项目。他没有召开新闻发布会,没有录制精心编排的产品演示,只在仓库里放了一份简洁的说明文档和一段不到十分钟的介绍视频。

阅读全文

Harness Engineering:当 AI Agent 变得足够强大,真正的工程才刚刚开始

Harness Engineering:当 AI Agent 变得足够强大,真正的工程才刚刚开始

2025年11月26日,Anthropic 的工程博客上发表了一篇文章。标题平淡得像一份内部备忘录:"Effective harnesses for long-running agents"。作者 Justin Young 没有宣布新产品,没有展示基准测试的飞跃,只是描述了一件事:如何让 Claude 在跨越多个上下文窗口的长时间任务中不崩溃。

三个月后,OpenAI 发布了自己的版本。他们的团队用三个工程师、零行手写代码,在五个月内构建了一个百万行代码的生产级产品。GitHub 上一个名为 awesome-harness-engineering 的资源库在几周内成为行业里被引用最频繁的文档之一。LangChain 发布了 Deep Agents——一个被明确定义为"agent harness"的开源运行时。Martin Fowler 的网站上出现了专题文章。36氪、知乎、腾讯云开发者社区的中文解析文章接踵而至。

他们都在讨论同一件事。

只是这件事,还没有一个公认的中文翻译。有人叫它"驾驭工程",有人叫它"约束工程",有人干脆不翻译,就叫 Harness Engineering。


一个反直觉的前提

Harness Engineering 的起点是一个令很多人不适的观察:你的 Agent 效果不好,可能不是模型的问题,是你的问题。

更准确地说,是你围绕模型搭建的那层基础设施——或者更准确地说,那层基础设施的缺失。

HumanLayer 的博客用了一个刻薄的标题:"Skill Issue: Harness Engineering for Coding Agents"。文章的核心论点是:大多数人对 AI Agent 的失望,本质上是一种 skill issue——不是模型的 skill,而是使用者的 skill。你没有给 Agent 足够的上下文,没有设置正确的约束,没有提供验证手段,没有建立反馈回路。Agent 失败了,你归咎于模型,但实际上是你的 harness 不够好。

阅读全文

别再用 TODO 管 AI Agent:多智能体协作需要一块真正的看板

别再用 TODO 管 AI Agent:多智能体协作需要一块真正的看板

如果你真的开始把 AI Agent 用进日常工作流,很快会发现一个问题:任务本身不一定难,难的是任务之间的协作能不能可观察可恢复可交接

传统 TODO 列表能记录“有什么事要做”,但很难回答两个更关键的问题:

  1. 这件事为什么卡住?
  2. 下游 Agent 接着做时,应该接收哪些上下文?

Hermes 的 Kanban 系统解决的正是这个问题。它不是把 Trello 或 Jira 简单搬进 Agent 世界,而是把看板变成一个多智能体任务中枢:任务会在 Triage、Todo、Ready、In progress、Blocked、Done 这些状态之间流转,父子依赖可以自动晋升,每次运行都有记录,完成任务时还可以留下结构化的 summary 和 metadata,供下游 Agent 继续使用。

阅读全文

一个桌面应用,让 AI 帮你处理所有 GitHub Issues

Autoresearch 桌面版是一个基于 Tauri v2 + React 的跨平台桌面应用,为 autoresearch 命令行工具提供了完整的图形化操作界面。它让你可以通过直观的 UI 管理 GitHub Issues、配置 AI Agent、监控自动化运行过程、查看历史记录,把原来需要手动敲命令的整个流程,变成点几下鼠标就能搞定的事。

下载:https://github.com/smallnest/autoresearch/releases/tag/v0.1.0

初始化项目

https://github.com/smallnest/wxeditor 为例。
我已把wxeditor项目git clone 本地 ~/workspace/mdeditor 文件夹。

打开应用后,首先进入概览页面。点击"切换项目"选择你的代码仓库目录,应用会自动检测项目下是否已有 .autoresearch/ 配置目录、program.md 规则文件和 agents/ Agent 配置目录。全部就绪后,页面会用绿色的状态提示告诉你"配置完整,可以开始使用"。

阅读全文

Hermes Agent 最大的彩蛋,90% 的人不知道这些斜杠命令

Hermes Agent 提供了大量的斜杠命令和内置的Skill——不仅打通了 Telegram、Discord、飞书等多个消息平台,还在会话管理、技能系统和记忆机制上引入了不少新玩法。今天我把 Hermes 的斜杠命令体系完整梳理一遍,按使用频率分类,方便大家各取所需。

Hermes Agent 是由 Nous Research 打造的自改进 AI Agent,内置学习循环、跨会话记忆、技能系统、任务调度和多平台消息网关。支持 OpenRouter(200+模型)、Anthropic、OpenAI、GLM、MiniMax 等任意 LLM Provider,一条命令安装,Linux/macOS/WSL2/Termux 均可运行。


一、每天都在用的几个

/new/reset

/new 开一个新会话,/reset 是别名。如果想换模型,直接 /new gpt-4o 或者 /new claude-opus 都可以,支持模糊匹配。

阅读全文

我把 Karpathy 的 AutoResearch 搬到了软件开发领域,效果炸了

像 Karpathy 训模型一样开发软件。

Andrej Karpathy 的 AutoResearch 项目于 2026 年 3 月发布,短短几天内在 GitHub 收获 5 万+ 星标,介绍视频播放量达 860 万次。这是一款开源 Python 工具,代码量仅 600 行左右,可让 AI 智能体在无需人工干预的情况下,于单张 GPU 上自主运行机器学习实验。它通过修改训练代码文件(train.py)生成实验方案,以固定 5 分钟训练时长和验证比特率(val_bpb)为统一评估指标,自动筛选并保留效果更优的代码修改,形成「假设生成 → 训练执行 → 指标判断 → 结果回滚/保留」的循环机制。

这个项目的精髓在于三点:① 量化目标(val loss 是唯一判断标准)、② 自主循环(Agent 不需要人类每轮介入)、③ 只保留改进(退化就回滚,绝不将就)。预计每小时可完成约 12 次实验,一觉醒来就能收获上百轮自动优化的结果。

阅读全文