https://openai.com/index/thinking-with-images/ 将这个网页里面的内容输出为一篇图文并貌的微信公众号推文。

2025年4月16日,OpenAI发布了其最新的人工智能模型o3和o4-mini,这两款模型在视觉推理领域取得了突破性进展。据OpenAI介绍,这些模型不仅能够“看到”图像,还能在推理链中“思考”图像,显著提升了处理视觉信息的能力。它们可以对用户上传的图像进行裁剪、缩放、旋转等操作,无需依赖单独的专用模型。此外,这些模型还能与网络搜索、Python数据分析和图像生成等工具结合,提供多模态的智能体验,为用户带来前所未有的交互方式。
这项技术的发展可能改变我们与AI交互的方式,使其更直观、更贴近人类处理视觉信息的方式。以下,我们将详细介绍这些模型的实际应用、性能表现以及未来的发展方向。
图像推理实战
OpenAI通过一系列示例展示了o3和o4-mini在视觉推理方面的强大能力。这些示例不仅体现了模型的技术实力,也展示了其在实际场景中的应用潜力。
示例一:读取笔记本文字
在一个示例中,模型分析了一张笔记本照片,照片中的文字是倒置的。模型通过旋转图像并裁剪到文字区域,成功读取了内容:“2月4日 – 完成路线图”。整个推理过程仅耗时20秒,展示了模型在处理复杂视觉信息时的效率。
(注:原文中包含一张展示笔记本文字的图像,建议访问原文查看。)
示例二:解决迷宫
另一个引人注目的示例是模型解决了一个迷宫问题。用户上传了一张迷宫图像,模型在1分44秒内完成了推理,不仅找出了正确路径,还用红线绘制了路径,生成了一张已解决的迷宫图像。这一过程涉及图像处理技术,如阈值处理和膨胀操作,体现了模型在复杂视觉任务中的能力。
(注:原文中包含迷宫及其解决路径的图像,建议访问原文查看。)
这些示例表明,o3和o4-mini能够处理多样化的视觉任务,从简单的文字识别到复杂的路径规划,为用户提供了强大的工具。
性能基准
为了评估o3和o4-mini的性能,OpenAI在多个视觉任务基准测试中将其与之前的模型GPT-4o和o1进行了对比。测试均在高“推理努力”设置下进行,以确保结果反映模型的最大潜力。以下是详细的性能数据:
|
|
|
|
|
|
---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
关键观察
- 显著提升
:o3和o4-mini在所有测试中均超越了GPT-4o和o1,尤其在MathVista和V*基准测试中表现突出。 - V*基准的突破
:o3在V*基准测试中达到了96.3%的准确率,几乎完全解决了这一视觉搜索任务,标志着视觉推理技术的重大进步。 - 无浏览推理
:这些模型在不依赖外部浏览的情况下,通过图像思维实现了性能提升,展示了其内在推理能力的强大。
这些结果表明,o3和o4-mini在视觉推理任务中树立了新的行业标杆,为学术研究和实际应用提供了更强大的工具。
局限性与未来方向
尽管o3和o4-mini取得了令人瞩目的成就,但它们仍存在一些局限性,需要进一步改进:
|
|
---|---|
|
|
|
|
|
|
未来计划
OpenAI表示,他们正在努力优化这些模型,以解决上述问题。具体计划包括:
- 简化推理过程
:减少冗余操作,使推理链更简洁高效。 - 提高准确性
:改进感知能力,减少错误,确保输出更可靠。 - 增强可靠性
:优化模型架构,确保多次推理结果一致。 - 多模态研究
:继续探索多模态推理技术,进一步提升模型在视觉、文本和其他数据类型上的综合能力。
这些改进将使o3和o4-mini在未来更广泛的应用场景中发挥作用,例如教育、科学研究和创意设计。
结论
OpenAI的o3和o4-mini模型通过图像思维开启了人工智能的新篇章。它们不仅能处理复杂的视觉任务,还能与多种工具结合,为用户提供多模态的智能体验。尽管存在一些局限性,OpenAI的持续研究和优化计划表明,未来的模型将更加高效和可靠。