o3可以自动串联使用多种工具(如网络搜索、代码解释器、提醒功能),能独立完成复杂任务,设置后可在短时间内返回全面答案。
测试表明o3的响应速度优于Anthropic的3.7 Sonnet和Google的Gemini 2.5 Pro等竞争模型,提供流畅的用户体验。

能轻松解决专家级数独等复杂问题,显示出卓越的逻辑推理能力。

凭借代理特性,可处理多个文件、执行深度网络搜索、分析长文档,并返回连贯完整的回答。
相较于o1不那么社交尴尬,也不像3.7 Sonnet那样过度努力,保持了较好的对话体验和写作能力。
擅长执行多步骤研究任务,可在多个来源间进行综合,提供全面且深入的分析结果。
开发者测试反馈显示o3在编程任务中表现良好,能理解意图并高质量完成任务。
更了解自己的知识边界,在信息不足时会明确表明并要求提供更多信息,而非胡乱编造。
可分析整本书或大量会议记录,提取主题并进行深入分析。
输入10/百万tokens(命中缓存),输出40$/百万tokens

本文转自Dan Shipper —— Every的首席执行官兼联合创始人,其于o3 发布前一周受邀提前测试使用。
原文见:
https://every.to/chain-of-thought/vibe-check-o3-is-out-and-it-s-great?utm_source=twitter&utm_medium=organic&utm_campaign=social
这份工作的乐趣之一是我可以在新的AI模型发布前就试用它们。
这份工作的奇怪之处在于,如果它们不够好,场面会变得尴尬。
这就像你的约会对象让你尝试她做的虾干葡萄烩饭。你尽可能礼貌地把它藏在餐巾里,然后,在与她对视时,勉强挤出一个微笑。
你希望它好,但如果你讨厌它,你必须坦诚。
幸运的是,我使用o3的体验——OpenAI最新的推理模型,今天公开发布[1]——几乎是100%的愉悦,0%的尴尬。
这是一个很棒的模型。
仅在过去一周,它就标记出我在会议记录中每一次回避冲突的情况,创建了一个每天早上提醒我的微型机器学习课程,从一张模糊照片中找出一个婴儿车品牌,编写了一个新的自定义AI基准测试,并对Annie Dillard的经典作品进行了X光分析,发现了我从未注意到的写作技巧。它甚至分析了Every的组织结构图,告诉我们在发布什么产品方面会表现出色,以及我们的弱点在哪里。
几个要点
具有代理性。
OpenAI的某人向我形容o3是深度研究[2]精简版,这正是它的本质。设置它执行任务,然后30秒或3分钟后回来获得一个全面的答案。它可以使用网络搜索、代码解释器[3]、提醒和记忆等工具循环操作,这样你可以让它编写复杂功能、回答关于长文档的棘手研究问题,甚至为你构建一个每天提醒你学习的课程。
速度很快。
速度是智能的一个维度。也许你的模型可以统一物理学,但如果它不能在这一生中实现,我不会在意。在我的测试中,o3在这个维度上始终比Anthropic和Google的前线推理模型(分别是3.7 Sonnet[4]和Gemini 2.5 Pro)更快。它感觉更流畅。
非常聪明。
截至撰写本文时,我没有基准测试的访问权限,但我给它一些专家级数独问题,它第一次尝试就解决了。Gemini 2.5 Pro和3.7 Sonnet都失败了。
打破了一些旧ChatGPT的限制。
因为它具有代理性,旧规则不再适用。你不必那么警惕网络搜索,因为它不会简单地总结Google搜索中找到的第一个垃圾博客文章。你可以给它多个文件并期待连贯、完整的回答——例如,我让它阅读整本书并概述它。当你使用它进行编码时,它会自动在网络上进行多次搜索以找到最新文档,这大大减少了错误。基本上,它使ChatGPT变得更加有用。
不像o1那样社交尴尬,也不像3.7 Sonnet那样过度努力。
这个周末我发现自己经常用它编码,我真的很喜欢它。它理解你的意思并高质量地完成任务。当你告诉它修复一个bug时,它不会像Sonnet那样盲目前进并试图建造泰姬陵。它也比其他o系列模型更有氛围感。与它交谈更有趣;虽然写作能力不如GPT 4.5[5](安息)或Sonnet 3.5,但仍然很好。
我对o3最高的赞美是在一周内,它已经成为我大多数任务的首选模型。我仍然使用GPT 4.5进行写作,使用3.7 Sonnet在Windsurf中编码,但除此之外,我全部使用o3,一直如此。
(OpenAI今天实际上发布了两个模型:o3和o4-mini,后者是下一代o4的较小版本。我已经尝试了这两个,但因为o4-mini主要在编码方面更好,所以我决定等到在复杂编程任务上使用它更多时间后再评审它。)
现在让我们进入正题:使用案例。
像思考一样快速编码
科技发展迅速。你的公司应该发展得更快。有了Windsurf,你可以在洗澡时自动生成代码,或在准备早餐时发布全新功能。编码的未来已经到来——现在,通过改进的Tab更新来自动完成你的工作。今天就注册[6]并免费开始使用。
像好莱坞超级侦探一样执行多步任务
这是经典犯罪片的一幕:调查员们落后反转基因生物恐怖分子数小时,疯狂搜寻线索。就在坏人看似要逃脱时,由塞思·格林扮演的角色说:"等等!"然后调出嫌疑人离开农贸市场的模糊黑白安全录像。
"放大!"他说,系统自动放大、裁剪、旋转然后再次放大。最终,在嫌疑人的Oakley包裹式太阳镜的反光中,我们看到他即将进入的薰衣草色普锐斯车的牌照号码。灾难避免;转基因玉米在中部地区又度过了安全的一天。
我不知道你怎么想,但我一直想喊"放大!"并让电脑做些有用的事情。现在我们可以了。我拍了一张我钢琴设置的照片,并要求o3阅读我笔记本上歌曲手写标题:

所有图片由Dan Shipper/o3提供。
o3自动使用其工具裁剪和调整图像大小,直到它清晰地看到笔记本——然后正确读出标题。
很酷。我想看看这能走多远,所以我给了它一个更难的任务。我给它一张婴儿车的照片,问它是什么品牌:

o3正确地放大了婴儿车上的小箭头标志(靠背中间),并在网上搜索了五分钟。它最终找到了完全正确的婴儿车。

我提出这一点不是因为这些用例最实用,而是因为它们展示了为什么o3如此强大。它不仅仅是模型——它是模型加上它可以在返回答案前多次使用的_内置工具_。这以一种明显的方式帮助释放了它的力量:你可以让它执行任何任务,更有信心它会返回正确的答案,而不仅仅是它想出的_第一个_答案,就像以前的模型一样。
我一直在说我们远未充分利用前沿模型的全部力量。这就像我们发明了喷气发动机,但还没有发明喷气式飞机。如果你把喷气发动机放在我家门口,我可能无法用它做太多事情。但将它安装到飞机上并给我飞行执照…现在我们可以谈谈了。
有了ChatGPT中的o3,终于感觉发动机和机身匹配起来了。
代理网络搜索用于播客研究
AI对我来说最重要的用途之一是研究任务,o3是一个令人难以置信的研究助手。
上周,我为我的播客_AI & I_[7]采访了《连线》杂志创始编辑凯文·凯利。他是我的英雄之一,我想确保谈话进行得很好。
作为采访准备的一部分,我需要了解他之前关于AI工具的言论和著作,所以我问了o3。在普通ChatGPT中,它会进行网络搜索找到一两个顶级链接,然后自信地为我总结结果——没什么用。而o3则在凯利的个人网站、X平台和许多其他新闻来源上进行了多次搜索,然后返回了一个全面的结果:

这个输出类似于我通过深度研究(由o3的一个版本提供支持)获得的内容,但速度快得多。深度研究有时感觉像发射一个太空探测器。你会得到一个好答案,但需要10-20分钟,而且没有太多校正航向的空间。相比之下,o3将在10秒到5分钟左右返回可比的结果,所以你可以在一个深度研究查询返回的时间内与它进行多次来回交流。
另一个例子:我观看了OpenAI最近的播客[8],其中GPT-4.5研究团队提出了一个引起我注意的观点:智能就是压缩。我让它找到节目中的那个片段并为我分析:

它找到了获取视频文字记录的方法,并识别出我提到的观点,然后给了我一个用表格呈现的详细解释(它似乎喜欢表格)。然后我与它进入了一个兔子洞,讨论支持和反对这一观点的不同哲学家和科学家,并将其与我自己的写作联系起来。
你可以用早期模型做这些,但不会像o3那样全面。
编写我自己的个人AI基准测试
我与o3的对话引出了OpenAI播客中的另一个有趣观点:衡量新模型的最佳方式是看它能多准确地预测公司自己代码中接下来会出现什么。
你的代码不会出现在公共数据集中,而且它总是在变化,所以它作为一个未受污染的基准表现良好。我被这个想法启发,所以在同一聊天中,我决定创建一个相关基准:一个新模型能多好地预测Every内部会议中接下来会说什么?几个提示后,我有了一个快速简单的基准测试。

这有点难以解释,但给定一段文字记录,它检查每个模型在预测下一个词元方面有多好。GPT-4.5有5%的正确率,而GPT 3.5-turbo有20%的正确率。为什么?这是另一篇文章的故事(敬请关注)。
再说一次,这在Windsurf中使用3.7 Sonnet是可能的,但o3更擅长快速给我想要的结果。而且因为它在ChatGPT中内置了网络搜索,所以在我不需要明确要求它搜索的情况下,它不太可能使用过时的库。
但这还不是全部。
小型课程,每天都在你的聊天历史中
同样的OpenAI播客让我了解到一篇关于智能作为压缩和机器学习中主题的论文。(主题是机器学习模型中出现的重复模式,类似于歌曲中重复的和弦。)
我不想忘记这个,所以我要求ChatGPT为我建立一个短课程,让我每天学习一点相关知识。它使用提醒工具记住每天早上给我发送一条新的信息:

但o3不仅擅长深入信息兔子洞——它还可以告诉你更多关于你是谁的信息。
预测你的未来
自2022年以来,我一直要求ChatGPT预测我的未来,o3在这方面是最好的。结合ChatGPT的新记忆功能,效果令人难以置信:

它不仅提出了一些非常有趣的预测,还给出了概率。谁知道它是否正确,但我们一年后再回来检查。
分析会议记录进行领导力分析
我最喜欢用o3做的事情之一是领导力指导。因为它具有代理性,它可以阅读极长的文件并提取详细而有见地的分析。上周末,我给它提供了一个包含过去五天我参加的每次会议记录的文件,并询问它的想法:

它在提取主题、帮助我理解我让团队关注什么以及我可能在哪些方面不足(例如,避免冲突)方面做得非常出色。而且因为它可以引用记录中发生这种情况的确切点,它帮助我在上下文中磨练技能——这对传统领导力教练来说是一项巨大(且昂贵)的工作。
分析组织结构图解码公司优势
o3不仅擅长帮助你了解自己。它还可以帮助你了解你的公司。康威定律[9]说"你交付的是你的组织结构图",即你制造的产品形状像构建它的团队。但要客观了解你的组织结构为什么而设计可能很难——直到现在。
我要求o3查看我们网站上的团队页面[10],并告诉我Every为什么而设计:

它告诉我,我们天生设计用于发布高频率、高质量的编辑输出和快速构建轻量级软件实验:

但我们将难以构建高度扩展的系统或专有AI模型:

它总结分析时称我们"结构上被设计为一个想法工厂":

这确实正是我多年来一直在尝试构建的。它还准确指出公司如果想要更上一层楼需要增长的地方:增长功能和更多工程力量。
自定义YouTube播放列表
第一代规模化互联网平台如YouTube和Facebook使用的AI算法基于你的显性偏好。如果你点击了猫视频,它会假设你喜欢猫,然后给你推送更多猫视频。如果你10岁的侄子借了你的手机点击了猫视频,它会假设你喜欢猫,然后给你推送更多猫视频。无法向算法解释它看到的行为实际意味着什么,所以你的YouTube会充满猫视频,直到宇宙热寂——或者直到你在凌晨2点出于病态好奇点击了一个地平论阴谋论视频,二者取其先。
基于显性偏好的算法倾向于提供更耸人听闻、更两极化、更阴谋论和更性感的内容——无论什么让你更可能点击。而因为它们是通过你的行为"显现"出来的,它们让我们认为这就是人们真正想要的。
但现在我们可以与算法交谈——我们可以陈述我们的偏好。我使用o3生成一个反映我真正想看的YouTube播放列表(正如我所说,它喜欢表格):

然后我点击这些视频告诉YouTube给我推送什么,瞧——即时清洁饲料。我无法告诉你这感觉有多好。它使我的互联网体验更可能提供实际丰富和振奋人心的内容,而不仅仅是我冲动点击的内容。
阅读整本书
如果你阅读Every有一段时间,你会知道Annie Dillard是我最喜欢的作家。我一直在寻找更好地理解她作为作家工作方式的方法,o3给了我一个前所未见的视角来了解她最著名的作品。
我让它从头到尾阅读她的书《汀克溪的朝圣者》,做一个大纲,并指出人们通常忽略的内容:

它没有让我失望。例如,它发现她"截断谓语",意味着她使用包含主语而没有宾语的句子来强调纯粹感知的时刻:

它还发现她使用词语声音的模式来强调特定段落的主题。它在分析中非常具体(例如,它说Dillard使用"液体l-runs和柔和的鼻音"来强调深思熟虑、仔细的观察),我当然不会把每个字都当作福音。但它正在制定合理的论点,其复杂程度需要文学教授,甚至Dillard本人来验证:

如果你是一名作家,或在任何创意领域工作,这类研究助手非常有用——而且有趣。
拒绝回答——它更了解自己不知道什么
与其他模型相比,o3不太可能假装知道一些事情。例如,当我在前面的例子中给它提供了我一周内所有会议的记录时,我问它我在与某位风险投资家的会议中表现如何。
但它没有给我答案,而是说它没有足够的信息并要求我提供:

我以为我发现它犯了错误,但我意识到错的是我:我没有在给它的文件中包含那次会议的记录。
这是一个令人印象深刻的发展。如果你问大多数模型一个关于非常长文件的难题,它们会编造一些东西。这让我对它的回答更有信心——它更了解自己知道什么。
局限性
当然,o3并不完美。例如,它对表格的偏好有点病态。它为每种可能的回应制作表格。请少用一些表格。
它的代理图像识别功能也不完美。当我让它命名婴儿车品牌时,它尝试了几次。它有时会偏离去检查婴儿车旁边的墙壁而不是标志,然后给我一个看似合理但不正确的答案。不过,在我尝试的三次中,它有两次得到了正确答案。
当处理超长文件时,它仍然有时会产生幻觉。而且当聊天持续多小时来回交流后,它往往变得懒惰。
然而,这些都没有超过你在其他模型中发现的任何限制。事实上,可以安全地说,在质量方面,o3犯的错误更少。我假设这些粗糙的边缘将在对该模型的进一步改进和新版本中被消除。
最终评价
这是自GPT-4以来,新的OpenAI模型给我带来的最大"Wow"时刻。该公司成功延长了AI执行任务的自由度。现在你可以可靠地让它工作几分钟,以获得更高质量的答案,无需干预。
但让o3特别强大的是模型与ChatGPT之间的集成。它拥有网络搜索、提醒、记忆和代码解释器等工具,让用户能够以更少的麻烦获取更多能力。这对OpenAI来说是一个非常宝贵的战略位置,将进一步巩固其作为这个AI时代首选目的地聊天机器人[11]的领先地位。
o3也是公司经历变革季节的一课。在Sam Altman被解雇后的约一年时间里,OpenAI发布新产品的速度很慢,分析师们预测其衰落。
随着这次发布加上最近的深度研究和GPT-4.5,OpenAI又开始势头强劲。