会聊天的 AI,我们已经见多了。能干实事的 AI,才刚刚开始登场。
昨晚,OpenAI 一口气发布两款新模型:o3 和 o4-mini,没有等 GPT-5,没有开发布会,更没有宣传大模型参数。它们的重点不是“更强”,而是“更能干”。
这次更新的信号很明确:AI,不再只是回答你,而是能理解问题 → 分析路径 → 自选工具 → 自己动手。AI 正在从“陪聊型选手”,转向“动手型搭子”。
GPT-5 没来,但 OpenAI 先放出更关键的东西
原本,o3 是为 GPT-5 准备的旗舰模块。但面对开发者对“能解决问题的 AI”需求高涨,OpenAI 做了一个战略决策:不等了,单发出场。
于是我们迎来了这组“双子星”模型:
-
o3:面向专业场景的旗舰模型,推理能力显著增强。
-
o4-mini:轻量级版本,主打性价比,每百万 tokens 仅 $1.10,远低于 Claude 和 Gemini 等主流模型。
更关键的是,它们都秉持 OpenAI 近几轮的核心思路:从语言模型,向任务代理模型进化。
真·能干活的 AI,到底长什么样?
如果你想知道“动手型 AI”到底哪不一样,可以看这些新特性:
–高级推理:不再死记硬背,而是像人一样“边想边修”。通过强化学习优化后的推理路径更完整、可追溯,尤其在需要深度逻辑思维的任务上,性能相比前代 o1 有了显著提升。
–看图理解:不只是“看懂图”,而是能将图表、草图、演示稿中的信息纳入推理链路。这是 OpenAI 推理模型首次具备真正的图像参与式理解能力。
你可以上传图片,例如白板笔记、图表或模糊扫描件,模型不仅能分析、放大、旋转图像,还能基于图中信息进行推理。在一次直播演示中,o3 成功解析了一张科学研究海报,通过浏览相关文献、放大特定区域,推断出图像中未直接呈现的结论。
这类能力显著增强了 AI 在教育、科研和技术分析等场景下的实用性。
– 自动选工具:不等你下指令,它能自行决定是要浏览网页、执行代码、生成图像,还是解释文件——这是真正意义上的“任务代理”。
o3 与 o4-mini 首次具备了在 ChatGPT 中自主调用多个工具的能力,包括:网页浏览、Python 代码执行、图像处理与生成、文档解析等
? 当你交代一个复杂任务时,模型可以根据上下文自行“组装”解决路径。例如,遇到编码问题时,o3 能直接在 ChatGPT 的代码画布中编写、执行并调试 Python 脚本,大幅简化开发者的工作流程。
– 编程副驾:发布了本地工具 Codex CLI,直接在命令行里和你并肩写代码、调 bug、跑脚本。
– 成本大幅下降,高级模型不再高不可攀:如果说 o3 面向的是高阶用户,那 o4-mini 则是一次真正的“成本革命”。

它的 API 定价仅为每百万输入 token $1.10、输出 $4.40,相比 o3 的 10/40 美元,价格下降了近九成,同时也对 DeepSeek R1(0.14 / 2.19 美元)等性价比模型发起正面竞争。
从今年初的 o3-mini 起,OpenAI 就在试图“把高级推理拉下神坛”。如今的 o4-mini,正是这场策略的延续 —— 让开发者和普通用户都能以低门槛接入高能力 AI。
?️ Kevin点评:别再问 AI 能做什么,要看它值不值得天天用。
这些能力的本质,不是某项技术点的大爆发,而是整套系统向“任务代理协作系统”的方向迈出的一大步。
推理战争,已经开打了
眼下,各家模型都在比“谁能干更多事”,但其实本质都在卷一件事:推理能力到底能不能落地?
–DeepSeek 靠 R1 拼性价比,吸开发者。
–Gemini 把多模态和搜索生态打包说事。
–Meta 押注开源,试图全域覆盖。
而 OpenAI 的组合打法很清晰:
一边用 o3 占领高阶场景,
一边用 o4-mini 放低门槛争取开发者和大众用户,
再搭配 Codex CLI 等工作流级工具,逐步筑起“闭环生态”。
而且官方还透露:后续将推出推理能力极强的开源模型。
?️ Kevin点评:它不是不告诉你答案,而是先判断你为啥问。AI 的“人味”,从这一刻开始。
这是一次对“开源阵营”的正面宣战,也是在为整个 AI 社群重新立标杆。
类人协作,成了新阶段起点
在性能测试上,o3 和 o4-mini 也确实给出了不俗表现:
-
数学 / 科学类推理测试,显著优于前代 GPT-4。
-
GitHub 编程题准确率达 70%,超越 Claude 3.7。
-
ARC-AGI 测试得分高达 87.5%,超过人类平均水平。
但更值得注意的是,它们的“行为模式”也发生了结构性变化。
OpenAI 引入了新的“审慎对齐(Cautious Alignment)”机制——模型不再简单“拒绝回答”,而是会评估你的意图,判断是否协助。更像一个“理性判断的同事”,而不是“机械的客服”。
这固然更接近人类,但也开启了一轮新问题:模型是否会“想太多”?开放性是否变差?黑箱风险是否加剧?
现在没有标准答案,但可以确定的是——AI 的“参与感”正在增强。
最后说句现实的
不管你是程序员、教师、研究员,还是内容创作者,这波更新都值得亲测。
现在,o3 和 o4-mini 已全面开放,首次实现“强模型 + 低门槛”的双重突破。
你可以通过 ChatGPT 使用(Plus、Pro 和 Team 用户直接可选),也可以通过 API 接入开发,甚至免费用户也能有限体验 o3-mini,未来 o4-mini 也可能下放。

Kevin点评:从“高价尝鲜”到“低门槛上手”,这次模型升级真正打通了“能用”与“常用”之间的鸿沟。
比起 GPT-4 的“全能+高价”,o3 和 o4-mini 更明确地告诉你:
我能做什么、做得多好、你花多少钱。
这才是 AI 工具成为“日常搭子”的分水岭,也是一场推理竞赛的新起点。