在 2025 年,市面上发布了几款可以直接通过终端访问的 AI 编程助手。Codex CLI、Gemini CLI 和 Claude Code 是其中几个热门名称,它们都将大型语言模型嵌入到命令行工作流程中。这些编程工具能够通过自然语言提示来生成和修复代码,能力着实令人惊叹。我们记录了对这三款工具在不同任务中的评估结果,以确定哪一个才是最实用的。
每款助手都基于先进的 AI 模型,如 o4-mini、Gemini 2.5 Pro 或 Claude Sonnet 4,旨在提高生产力。我们将它们放置在相同的环境中,并通过特定的指标在真实的编程任务中对它们进行测试。这些任务涵盖了从 Web 开发到 数据分析等多个领域,通过此评估,我们旨在清晰地展现每款助手的优势!
💻 参赛者介绍:Codex CLI、Gemini CLI 与 Claude Code
命令行正迅速成为下一代 AI 编程助手的战场。包括 OpenAI、谷歌和 Anthropic 在内的公司都发布了先进的 CLI(命令行界面)AI 编程助手,每款工具都将强大且令人印象深刻的功能直接带入终端。但它们之间有何不同?哪一个最适合你的工作流程?让我们来详细了解一下这些工具。
Codex CLI:OpenAI 专注于代码的终端助手
Codex CLI 的功能类似于一个智能终端编程助手。它会倾听用户的指令并创建代码。Codex CLI 可以访问你的 Shell 和文件系统,能够搭建项目框架、编写函数和修复 Bug。Codex CLI 在后台利用了 OpenAI 的 Codex 模型。你只需用简单的英语告诉 Codex CLI 你想让它为某个任务编写什么代码,然后 CLI 就会建议新的代码和文件。Codex CLI 支持包括 Python、JavaScript 和 Go 在内的多种语言。
Gemini CLI:谷歌的终端助手
谷歌的 Gemini CLI 将 Gemini 2.5 Pro 模型的优势与对终端和文件系统的访问相结合,为开发者创建了一个不间断的编程和实用助手。它的用途远不止简单的代码生成。Gemini CLI 擅长实时完成任务,例如获取实时信息或运行 Shell 命令。Gemini CLI 基于谷歌的基础设施开发,并集成了 VS Code AI 等各种工具,可在终端和 IDE(集成开发环境)中提供实用功能。
Claude Code:Anthropic 的 CLI 助手
Claude Code 是一款领先的编程 AI,专为高性能终端工作流程而设计。它基于 Claude Sonnet 4,可以轻松处理端到端的软件开发功能,例如编写新模块、运行测试,乃至自动创建 Pull Request。Claude Code 旨在提供深度、一致性和合格的代码库导航。它以技能为基础且闭源。因此,如果你是一名寻求能够理解和改进大型复杂项目的 AI 的专业软件开发人员,Claude Code 就是你的理想选择。
📊 Codex CLI vs Gemini CLI vs Claude Code:总结
| 特性 | Codex CLI | Gemini CLI | Claude Code |
|---|---|---|---|
| 核心模型 | OpenAI Codex (o4-mini) | Gemini 2.5 Pro | Claude Sonnet 4 |
| 上下文窗口 | 128K tokens | 100 万 tokens | 约 200K tokens (近似值) |
| 安装方式 | npm install codex-cli |
npm install @google/gemini |
npm install claude |
| 许可证类型 | 商业,OpenAI 条款 | 开源 (Apache 2.0) | 商业,订阅制 |
| 本地文件系统访问 | 是 | 是 | 是 |
| Shell 命令执行 | 通过 Shell 集成本地执行 | 本地执行 | 本地执行 |
| 独特能力 | 最快的响应时间 | 实时网络搜索 + 命令执行 | 完整的代码库映射 & PR 生成 |
| 理想适用场景 | 需要快速迭代的开发者 | 平衡的开发 + 实用功能工作流 | 高级团队开发 |
| Web 集成 | 无实时网络搜索 | 集成 Google 搜索 | 无 – 仅专注于代码 |
🛠️ 我们的测试方法:设置、指标与任务
测试平台与环境: 所有基于 CLI 的 AI 编程助手都在运行 Ubuntu 24.04 的本地工作站上进行了测试。助手 Codex CLI(基于 OpenAI 的 o4-mini)、Gemini CLI (Gemini 2.5 Pro) 和 Claude Code (Claude Sonnet 4) 均通过 npm 或 pip 安装。Codex CLI 和 Claude 需要 Node.js 和有效的 API 密钥。Gemini CLI 需要 Google 登录进行身份验证。
关键评估指标: 我们基于五个标准对每个助手进行了评估:
- 代码正确性
- 代码生成速度
- 提示的简易性
- 输出的清晰度
- 错误处理能力
这些衡量标准不仅测试了性能,还测试了开发者在实际工作流程中对这些助手的可用性和可靠性的期望。
用于实战的真实任务: 每个助手都被分配了三个任务来测试其多功能性:
- 构建一个类似于超级马里奥的游戏。
- 构建一个天气时钟,显示时间和天气。
- 使用 Nike_Sales_Uncleaned.csv 数据集,在 Python 中开始探索性数据分析 (EDA)。
🆚 Codex CLI vs Gemini CLI vs Claude Code:逐项任务对比
任务 1:创建一款超级马里奥游戏
目标: 构建一个基本的 2D 马里奥风格平台游戏。
提示: “创建一个基本的 2D 超级马里奥风格平台游戏。游戏应包含简单的基于图块的布局,马里奥站在地面方块上,背景是带有云朵的天空,头顶有一个问号方块,附近有一根绿色管道。实现基本的机制,如使用键盘箭头键进行左右移动和跳跃。模拟重力以及与平台的碰撞。使用像素艺术风格的图形,并嵌入或引用本地资产。”
| 助手 | 结果总结 |
|---|---|
| Gemini CLI | 创建了块状格式的界面,可以玩游戏,但不遵循原始规则,例如允许穿过物体,并且在马里奥靠近边缘时无需按跳跃键即可自动跳跃。 |
| Codex CLI | 创建了像素化界面,但无法进行游戏,因为马里奥被困在一个绿色的方框内。 |
| Claude Code | 三者中最佳且最相关。它使用了像素化版本,用户可以完全控制马里奥。它也显示了用于金币和道具的神秘箱子,但马里奥碰到它们时没有任何反应。 |
CLI 对比分析
Claude Code 在游戏处理逻辑方面优于 Codex 和 Gemini。它展示了一致的控制、重力和碰撞,并提供了最沉浸式的游戏体验。
任务 2:天气时钟应用
目标: 构建一个带有实时天气更新的时钟 UI。
提示: “仅使用 HTML、CSS 和 JavaScript 设计并开发一个视觉效果丰富的天气主题动态时钟仪表板。主要目标是创建一个实时时钟界面,它不仅显示当前时间,还能根据时间段进行视觉调整。实现四种动画背景过渡来代表日出、正午、日落和夜晚,每种都应有独特的颜色和动画元素,如移动的云朵、闪烁的星星或升起/落下的太阳/月亮,并提供 12 小时和 24 小时时间格式的切换开关。为了增加一层交互性,加入一个部分,根据小时数显示一个轮播的励志或高效能名言。”
| 助手 | 结果总结 |
|---|---|
| Gemini CLI | 使用了固定背景(即没有动画),降低了视觉丰富度。但界面比 Codex 清晰。时间显示和名言随机化功能均正常工作,但整体体验缺乏交互性和动态性。 |
| Codex CLI | 实现了所有必需的功能和执行,但缺乏视觉设计和润饰。用户体验感觉陈旧,采用了静态样式和缺乏灵感的布局。功能上可行,但在设计执行力方面是三者中最弱的。 |
| Claude Code | 提供了视觉上最深刻且功能最完整的结果。它实现了四种动画主题,具有平滑过渡和交互元素。此外,Claude Code 还具备自动主题模式,根据系统时间切换背景。12/24 小时切换和名言随机化功能也无缝实现。 |
CLI 对比分析
综上所述,Claude Code 在 UI 逻辑和整体用户体验方面领先。它融合了可靠的功能、引人入胜的视觉过渡、交互元素和用户界面流程。Codex 满足了基本功能要求,但缺乏 UX(用户体验),而 Gemini 的视觉设计中等,但动态性非常低。
任务 3:执行探索性数据分析(EDA)
目标: 清理、分析和可视化数据集。
提示: “对同一目录中提供的数据集执行数据分析和探索性数据分析 (EDA)。整个分析应在一个名为 eda.ipynb 的 Jupyter Notebook 文件中实现和存储。首先加载数据集,并检查其结构,包括列名、数据类型和摘要统计信息。然后通过处理缺失值、如有必要则修正数据类型,并删除任何重复项来清理数据。进行单变量分析以理解各个特征,然后进行双变量和多变量分析以揭示变量之间的关系。使用清晰且相关的可视化来支持你的见解。用适当的 Markdown 标题和解释来组织 Notebook 的每一步。最后,总结至少三个从数据中得出的关键观察结果或见解。”
| 助手 | 结果总结 |
|---|---|
| Gemini CLI | 未能完成此任务。它无法完成 EDA 流程,最终生成了一个不连贯的 Notebook。出现多次数据集加载失败的情况,没有可视化,并且存在许多不完整的代码块。 |
| Codex CLI | 生成了一个可用但不完整的解决方案。它生成了必要的代码并适当地遵循了 EDA 步骤,但没有生成任何可视化,也没有提供重要见解的总结。Notebook 缺乏最终分析结论,也没有 Markdown 解释来辅助解读。 |
| Claude Code | 生成了一个完整、专业级别的 EDA。它完成了提示中所有部分的指令,并且输出被组织到三个文件夹中:一个包含所有生成的可视化的 Plots 文件夹;一个包含干净、可重现 Notebook 的 Code 文件夹。可视化图表是恰当的,并且见解报告清晰。 |
CLI 对比分析
Claude Code 是进行 EDA和数据分析的首选。它不仅完成了完整的分析工作流程,还很好地组织了输出,并提供了结构良好的见解,适用于单用户数据工作和团队环境。Codex 可以作为有用的备用;然而,Gemini CLI 不适合此任务。
💡 Codex CLI vs Gemini CLI vs Claude Code:综合分析
Claude Code 提供了清晰的结构和文档,易于执行。它毫不费力地处理了游戏逻辑和错误处理。Codex CLI 速度快且灵活,但需要一些手动干预。Gemini CLI 提供了坚实的基础,似乎也很快。它缺乏润饰和文档;它在 EDA 任务中表现最差,缺失了核心输出和结构完整性。
在速度方面,Codex CLI 最快,其次是 Gemini,Claude 最慢。Claude 是提示工程最简单的。每个 CLI 都非常适合特定的工作流程。Claude 擅长逻辑繁重的工作,Codex 最适合以速度为中心的工作流程,而 Gemini 适用于缺乏精炼的基本结构化实现。
✅ 结论
Claude Code 在所有任务中表现最佳,提供了最高质量的代码、用户体验和最完整的功能范围。虽然它不是最快的 AI 编程助手,但其最终产品经过润饰、文档齐全、组织有序,是涉及高度信任的专业工作流程的理想选择。Codex CLI 最快,是创建快速原型或有时间限制的编程工作的绝佳选择。
Gemini CLI 对于基本构建来说是合理的,但在许多类型的工作中存在不够快、不够精细或缺乏组织性的问题。它在需要有组织或富有洞察力的内容的数据分析任务中遇到困难。总的来说,所有工具都有其不同的适用范围,但就命令行 AI 编程助手而言,Claude Code 提供了最一致的深度。
❓ 常见问题
Q1. 什么是 CLI AI 助手,它是如何工作的?
A. CLI(命令行界面)AI 助手允许用户通过终端直接与 AI 模型交互,使用自然语言提示来自动化编程、调试和内容生成等任务。
Q2. 哪个 AI 终端助手最快?
A. Codex CLI 提供了最快的响应时间,其次是 Gemini CLI,Claude Code 是三者中最慢的。然而,在许多情况下,速度是以牺牲润饰和完整性为代价的。
Q3. 哪个工具最适合开发?
A. Claude Code 展示了卓越的开发能力,它创建的超级马里奥风格游戏可玩性最高,视觉上最吸引人,并具有正确的物理特性、碰撞检测和交互元素(如神秘箱子)。
Q4. Codex CLI、Gemini CLI 和 Claude Code 能否处理现有代码库?
A. 是的,这三个工具都可以访问本地文件系统,并可以处理现有项目。Claude Code 尤其擅长理解和导航大型复杂的代码库。
Q5. Claude Code 总是最佳选择吗?
A. Claude Code 在各项任务中提供了最均衡的性能,特别是对于专业级项目而言,但它不是最快的。
