OpenAI继续让ChatGPT对开发者更加实用。
几天前,他们增加了连接GitHub仓库的支持,可以"Deep Research"并根据你自己的代码提问。
今天,该公司在ChatGPT中推出了Codex的研究预览版,这是迄今为止最强大的AI编码Agent。
它可以编写代码、修复错误、运行测试,并在安全的云环境中同时管理多个编码任务。
让我们来分析Codex公告的详情。
什么是Codex?
Codex是一个运行在云端的软件工程Agent,可以为你执行任务,比如编写新功能或修复错误。
你可以并行运行多个任务。
Codex基于codex-1构建,这是OpenAI o3模型的一个变体,专门针对软件工程进行了优化。它通过在不同环境中对真实世界的编码任务进行强化学习训练,使其能够生成反映人类风格和拉取请求惯例的代码,准确遵循指令,并反复运行测试直到通过。
Codex是一个研究预览版,因此功能和特性随时可能发生变化。
Codex如何工作
你可以在ChatGPT侧边栏中找到Codex。启用后,你可以直接分配任务给它。只需输入你想要它做的事情,然后点击标有"Code"的按钮。如果你对代码库有疑问,可以点击"Ask"并获得上下文相关的答案。
它能够读取和编辑文件,并可以执行命令,如测试工具、代码检查器和类型检查器。任务完成通常需要1到30分钟,取决于复杂性,你可以实时跟踪其进度。
一旦Codex完成任务,它会在其环境中提交更改。这些更新会自动跟踪和保存。
为确保透明度,Codex包含其行动的可验证证据。这些证据来自终端日志、测试输出和其他执行详情,使你能够轻松追踪完成任务所采取的确切步骤。
审查结果后,你可以选择下一步操作。你可能会请求额外更改、打开GitHub拉取请求,或将修改直接集成到本地环境中。
在产品中,你还可以选择配置Codex的环境,使其与你的实际开发设置紧密匹配。这有助于确保任务在与你真实工作流程相似的条件下运行。
看看这个示例提示:

以下是Codex和o3生成代码的并排比较:
与OpenAI o3相比,codex-1始终生成更干净的补丁,可立即进行人工审查并集成到标准工作流程中。
Codex性能基准
OpenAI使用内部基准和外部编码评估的组合来评估codex-1。
对于SWE-Bench Verified基准,OpenAI排除了23个无法在其内部基础设施上运行的样本。这有助于确保所有评估的任务都是真正可测试和可测量的。Codex-1的评估使用了最大192,000个令牌的上下文长度,采用中等"Reasoning Effort"设置。
这与Codex产品版本中当前可用的设置相同。
"Reasoning Effort"指的是模型在思考和完成任务时可以采取的步骤数量。中等程度的努力在推理的速度和深度之间取得了平衡。
除了SWE-Bench外,OpenAI还使用内部软件工程(SWE)任务基准,其中包括来自公司内部精选的真实工程任务集。
这些任务代表软件工程师在OpenAI实际执行的工作类型,为测量Codex的能力提供了一个实用、高质量的标准。
Codex不是用来进行氛围编程的
如果你习惯了像Cursor、Lovable或甚至Bolt这样的工具,可以用一个命令就能创建出一个完整的可运行应用,你可能会感到失望。
Codex不是用于氛围编程的。
这个Agent是为专业开发者打造的。是为那些在生产环境工作、不想浪费时间做烦人事情的人设计的。Codex帮助你处理那些任务——错误修复、测试、环境调整、函数重写——让你能够专注于更高层次的工作。
所以,这不是关于氛围的。它是关于更快地完成真正的工程工作。
Codex无法访问互联网
Codex Agent完全在云端的安全隔离容器中运行。
在任务执行期间,互联网访问被禁用,Agent的交互仅限于通过GitHub仓库明确提供的代码和用户通过设置脚本配置的预安装依赖项。
该Agent无法访问外部网站、API或其他服务。
最初的用户对此并不满意。
例如,X用户Yoko表达了她对Codex甚至无法正确设置环境的失望,因为它没有互联网访问权限。
如果它无法访问互联网,它怎么可能正常工作?比如我无法安装npm包或升级我项目中的东西
OpenAI工程师Dominik Kundel回应该帖子说,用户需要手动添加自定义脚本来设置环境。
出于安全原因,环境在设置后是完全隔离的。你可以通过进入环境配置的高级部分添加自定义设置脚本来安装依赖项。
这是一个笨拙的变通办法,尤其是当你每月为Pro订阅支付200美元时。
目前,就是这样运作的。我希望这个限制能在未来的更新中得到解决或至少得到更好的支持。
如何访问Codex
Codex现已向ChatGPT Pro、Enterprise和Team用户开放,之后将向Plus和Edu用户开放。
如果你还不知道,Pro订阅费用为每月200美元。这比低级别的Plus订阅贵10倍。
作为目前的Plus用户,我正在等待它在该级别可用。我很想亲自尝试Codex,看看它如何融入我的日常工作。
我也希望OpenAI最终会开放API访问。能够将Codex集成到CI管道、开发工具或内部GitHub工作流程中,可能会使其非常有用。
结语
我认为Codex有潜力。
我们正在接近这样一个未来:开发者可以将最无聊或重复的任务分配给AI助手。
这不是要取代工程师。
它更像是终于有了一个可靠的初级开发人员,他永远不会疲倦,总是遵循指示。
话虽如此,我目前仍无法证明每月200美元是合理的。
我非常期待在它向Plus用户开放后尝试。
如果OpenAI最终提供API访问或让我们在无头模式下使用Codex,这可能是构建软件的全新方式的开始。
2025年会是AI编码Agent的元年吗?
OpenAI总裁兼联合创始人Greg Brockman表示,2025年将是AI编码Agent的元年。
如果这最终成为现实,我们将面临工程团队工作方式的重大变革。
今年到目前为止,科技行业已有超过22,000名员工成为裁员的受害者,仅2月份就发生了惊人的16,084次裁员。
无论如何,如果你已经尝试过Codex,请告诉我。我想听听你用它来做什么类型的任务,以及你是否认为它符合宣传。