Goal, goal, goal! 三个智能体几乎同时推出的新功能

一个巧合,还是一个拐点?

2026 年 4 月底到 5 月中旬,AI 编程助手的赛道上发生了一件罕见的事:三家最活跃的智能体——OpenAI 的 Codex CLI、Anthropic 的 Claude Code、以及 Nous Research 的 Hermes Agent——在不到两周的时间窗口内,先后推出了各自的 /goal 斜杠命令。

这并非简单的功能追赶。/goal 背后代表的,是 AI 编程助手从"你问我答"的工具,走向"你定目标,我来完成"的自主智能体的关键一步。三家几乎同时落子,说明行业对这一方向的共识已经形成:持久化目标追踪 + 自主循环执行,将是下一代 AI Agent 的标配能力。

本文将从技术实现、设计哲学和行业趋势三个维度,拆解这三个 /goal 命令的异同,试图回答一个问题:当 AI 学会了自己"定目标、追目标、达目标",开发者的角色将如何改变?


一、OpenAI Codex CLI:最工程化的目标系统

发布时间:2026 年 4 月 30 日(Codex v0.128.0)

Codex 的 /goal 是三者中架构最精密的。OpenAI 用 5 个 PR、约 15,000 行代码,在 10 天内完成了整个实现。据 OpenAI CEO Greg Brockman 的描述,这是"built-in Ralph loop++"——把社区里流行的自主循环模式直接做进了产品。

阅读全文

软件又一次站在了十字路口——卡帕西的Software 3.0

软件又一次站在了十字路口。这一次,说话即编程。

旧程序员的消亡和新程序员的诞生

旧金山——2017年,一位名叫安德烈·卡帕西(Andrej Karpathy)的年轻人工智能研究员坐在特斯拉的办公室里,观察着一件奇怪的事情:他身边越来越多的代码不是人类写的,而是神经网络从数据中"学"出来的。他把这个发现写成了一篇文章,标题只有两个词——"Software 2.0"。

那篇文章后来成了硅谷被引用最多的技术论文之一。八年之后,卡帕西又来了。这一次,他在Y Combinator的AI创业学校登台,宣布了一个新的时代:Software 3.0

阅读全文

当 Karpathy 说"Wiki 能杀死 RAG",整个 AI 界花了五周时间证明他可能是对的

当 Karpathy 说"Wiki 能杀死 RAG",整个 AI 界花了五周时间证明他可能是对的

2026年4月4日,Andrej Karpathy 在 GitHub 上发布了一段不到3000字的文字。没有代码,没有论文,没有基准测试——只有一个想法。

五周之后,这段文字收获了超过5000颗 Star、5000次 Fork,以及评论区里660多条回复。十几个开源项目从中破土而出,一批创业公司以此为核心融资,YouTube 上出现了数十个深度解析视频,中文技术社区里"LLM Wiki"四个字的搜索量在一个月内翻了四十倍。

这一切发生得如此之快,以至于很多人还没来得及搞清楚一个问题:Karpathy 到底说了什么?


一个简单到令人不安的观察

Karpathy 的核心论点可以用一句话概括:RAG 是一种没有记忆的知识获取方式。

检索增强生成(Retrieval-Augmented Generation)是当前 AI 行业最主流的知识管理范式。它的原理很直接——你上传一堆文件,当你提问时,系统从文件中检索出相关片段,让大模型基于这些片段生成回答。NotebookLM、ChatGPT 文件上传、几乎所有的企业级 AI 知识库,都走这条路。

阅读全文

Codex CLI 最佳实践:从入门到精通

Codex CLI 最佳实践:从入门到精通

OpenAI Codex CLI 是一款运行在终端中的 AI 编程智能体,采用 Rust 编写,主打高性能与高度可配置性。但工具再强,用不好也是白搭。这篇文章不是参考文档——它是一份实战经验总结,告诉你怎么把 Codex 用出最大价值。


一、心态转变:别把 Codex 当一次性助手

这是最重要的一条。OpenAI 官方说得明白:当你不再将 Codex 视为一次性的助手,而是将其视为一个可以随着时间推移不断配置和改进的队友时,它的效果会最好。

具体来说,这条演进路径是这样的:

  1. 给正确的任务上下文 — 每次对话的基础
  2. 用 AGENTS.md 做长期指导 — 不再重复啰嗦
  3. 配置 Codex 匹配你的工作流 — 省去每次手动设置

阅读全文

我把 Karpathy 的 AutoResearch 搬到了软件开发领域,效果炸了-纽约时报风格

他把 Karpathy 的自动研究方法搬到了软件开发领域,然后离开了电脑

一位中国开发者借鉴人工智能先驱的思路,让多个 AI 智能体在无人监督的情况下自主完成代码编写、审核与合并。


撰文 / 2026年5月


三月的一个深夜,旧金山,Andrej Karpathy 在 GitHub 上发布了一个仅 600 行 Python 代码的项目。他没有召开新闻发布会,没有录制精心编排的产品演示,只在仓库里放了一份简洁的说明文档和一段不到十分钟的介绍视频。

阅读全文

Harness Engineering:当 AI Agent 变得足够强大,真正的工程才刚刚开始

Harness Engineering:当 AI Agent 变得足够强大,真正的工程才刚刚开始

2025年11月26日,Anthropic 的工程博客上发表了一篇文章。标题平淡得像一份内部备忘录:"Effective harnesses for long-running agents"。作者 Justin Young 没有宣布新产品,没有展示基准测试的飞跃,只是描述了一件事:如何让 Claude 在跨越多个上下文窗口的长时间任务中不崩溃。

三个月后,OpenAI 发布了自己的版本。他们的团队用三个工程师、零行手写代码,在五个月内构建了一个百万行代码的生产级产品。GitHub 上一个名为 awesome-harness-engineering 的资源库在几周内成为行业里被引用最频繁的文档之一。LangChain 发布了 Deep Agents——一个被明确定义为"agent harness"的开源运行时。Martin Fowler 的网站上出现了专题文章。36氪、知乎、腾讯云开发者社区的中文解析文章接踵而至。

他们都在讨论同一件事。

只是这件事,还没有一个公认的中文翻译。有人叫它"驾驭工程",有人叫它"约束工程",有人干脆不翻译,就叫 Harness Engineering。


一个反直觉的前提

Harness Engineering 的起点是一个令很多人不适的观察:你的 Agent 效果不好,可能不是模型的问题,是你的问题。

更准确地说,是你围绕模型搭建的那层基础设施——或者更准确地说,那层基础设施的缺失。

HumanLayer 的博客用了一个刻薄的标题:"Skill Issue: Harness Engineering for Coding Agents"。文章的核心论点是:大多数人对 AI Agent 的失望,本质上是一种 skill issue——不是模型的 skill,而是使用者的 skill。你没有给 Agent 足够的上下文,没有设置正确的约束,没有提供验证手段,没有建立反馈回路。Agent 失败了,你归咎于模型,但实际上是你的 harness 不够好。

阅读全文

别再用 TODO 管 AI Agent:多智能体协作需要一块真正的看板

别再用 TODO 管 AI Agent:多智能体协作需要一块真正的看板

如果你真的开始把 AI Agent 用进日常工作流,很快会发现一个问题:任务本身不一定难,难的是任务之间的协作能不能可观察可恢复可交接

传统 TODO 列表能记录“有什么事要做”,但很难回答两个更关键的问题:

  1. 这件事为什么卡住?
  2. 下游 Agent 接着做时,应该接收哪些上下文?

Hermes 的 Kanban 系统解决的正是这个问题。它不是把 Trello 或 Jira 简单搬进 Agent 世界,而是把看板变成一个多智能体任务中枢:任务会在 Triage、Todo、Ready、In progress、Blocked、Done 这些状态之间流转,父子依赖可以自动晋升,每次运行都有记录,完成任务时还可以留下结构化的 summary 和 metadata,供下游 Agent 继续使用。

阅读全文

一个桌面应用,让 AI 帮你处理所有 GitHub Issues

Autoresearch 桌面版是一个基于 Tauri v2 + React 的跨平台桌面应用,为 autoresearch 命令行工具提供了完整的图形化操作界面。它让你可以通过直观的 UI 管理 GitHub Issues、配置 AI Agent、监控自动化运行过程、查看历史记录,把原来需要手动敲命令的整个流程,变成点几下鼠标就能搞定的事。

下载:https://github.com/smallnest/autoresearch/releases/tag/v0.1.0

初始化项目

https://github.com/smallnest/wxeditor 为例。
我已把wxeditor项目git clone 本地 ~/workspace/mdeditor 文件夹。

打开应用后,首先进入概览页面。点击"切换项目"选择你的代码仓库目录,应用会自动检测项目下是否已有 .autoresearch/ 配置目录、program.md 规则文件和 agents/ Agent 配置目录。全部就绪后,页面会用绿色的状态提示告诉你"配置完整,可以开始使用"。

阅读全文

Hermes Agent 最大的彩蛋,90% 的人不知道这些斜杠命令

Hermes Agent 提供了大量的斜杠命令和内置的Skill——不仅打通了 Telegram、Discord、飞书等多个消息平台,还在会话管理、技能系统和记忆机制上引入了不少新玩法。今天我把 Hermes 的斜杠命令体系完整梳理一遍,按使用频率分类,方便大家各取所需。

Hermes Agent 是由 Nous Research 打造的自改进 AI Agent,内置学习循环、跨会话记忆、技能系统、任务调度和多平台消息网关。支持 OpenRouter(200+模型)、Anthropic、OpenAI、GLM、MiniMax 等任意 LLM Provider,一条命令安装,Linux/macOS/WSL2/Termux 均可运行。


一、每天都在用的几个

/new/reset

/new 开一个新会话,/reset 是别名。如果想换模型,直接 /new gpt-4o 或者 /new claude-opus 都可以,支持模糊匹配。

阅读全文

写公众号最痛苦的那段流程,终于有人重做了

写公众号最耗人的,常常不是内容本身,而是写完之后那一整套排版、预览、代码块、图片、复制发布的返工流程。wxeditor 不是普通 Markdown 编辑器,而是专门为微信公众号排版与发布场景重做的一套工具链。

大部分人苦微信公众号文章编辑器久矣!例如去年宝玉大佬的总结:

文章写完了,真正折磨人的事才刚刚开始。

标题不好看,要改!

代码块太丑,要改!

图片贴进去又乱了,要改!

好不容易排完,粘到公众号后台以后样式又变了,还得再改。

如果你经常写公众号,你一定懂这种崩溃感。

很多人以为公众号创作最难的是写。

其实不是。

真正耗时间、耗耐心、耗状态的,往往是写完之后那一堆排版和发布动作。

而最近看到的这个工具,我觉得非常值得写公众号的人认真看一眼。

它叫 wxeditor, 网址是 https://md.rpcx.io

不是“又一个 Markdown 编辑器”。

而是一个把公众号作者最烦的那段流程,重新做了一遍的工具。

它最厉害的,不是让你能写 Markdown

因为现在会写 Markdown 的工具太多了。

真正稀缺的,是一个能够把这条链路理顺的工具:

写作 -> 预览 -> 排版 -> 图片处理 -> 复制 -> 粘贴到公众号后台

wxeditor 做的,就是这件事。

它不是只给你一个编辑框。

它是把公众号作者最常遇到的问题,一刀一刀拆开,再一刀一刀补上。

第一件事:它把工作流变顺了

现在这个工具的核心结构是三栏:

  • 左边编辑区
  • 中间预览区
  • 右边样式面板

这不是简单的界面分栏。

它真正解决的是:你不用在多个工具之间来回跳。

更关键的是,它还把预览这件事做得更贴近真实发布场景:

  • 编辑区和预览区支持滚动同步
  • 默认是手机宽度预览
  • 折叠编辑区后还能切换到 1024px 网页预览模式

这意味着,你在排版长文时,不再需要一边拉滚动条,一边猜最终效果。

很多返工,其实从这里就已经开始减少了。

第二件事:它把那些高频但烦人的小动作一起做了

真正高频写作的人都知道,最拖效率的从来不是某一个大问题。

而是那些每次都会碰到的小动作:

  • Markdown 格式不统一
  • 外链处理麻烦
  • 想换个风格又得从头调
  • 排着排着发现整体气质不对

wxeditor 现在已经把这些动作做成了直接可用的能力:

  • Markdown 格式化
  • 外链转脚注
  • 随机色系
  • 随机风格
  • 一键复制到公众号
  • 复制 HTML 源码

这些单看都不算“炫技”。

但它们一起出现,说明这工具不是只做了个壳。

它是在认真压缩你发布前的摩擦。

第三件事:它不是给你几个模板,而是给你一整套主题系统

这点我觉得特别重要。

很多排版工具的主题,本质上只是几套固定皮肤。

第一篇觉得新鲜,第二篇就腻了。

免费的一些编辑器只提供几套上个时代的风格,离顶尖的风格差远了。

但 wxeditor 这次在主题系统上明显做得更深:

  • 内置多组公众号风格主题
  • 还有一组公司风格主题,采用DESIGN.md的分析,精准采集世上顶尖公司的网站风格
  • 160套代码风格任意可以,实时预览
  • 支持自定义主题保存

阅读全文