经过几个月的猜测,OpenAI最新的LLM 版本已经发布。
在此之前,该系列的最新机型曾被冠以 Q* 和 Strawberry 等神秘而耐人寻味的代号,但最终还是采用了OpenAI o1 这一名称。
OpenAI 新模型最大的更新是增强了推理能力。OpenAI 解释说,与以前的模型相比,o1 经过训练后会花更多时间进行思考,使其更接近人类智能。
OpenAI o1 是什么?
OpenAI o1 是OpenAI 于 2024 年 9 月 12 日发布的最新系列大语言机型,目前包括两款机型:o1-preview 和 o1-mini。
o1 与该公司之前型号的最大区别在于其先进的推理能力。虽然它还没有正式发布,但预览版和迷你版已经在数学、科学和编码测试中击败了GPT-4o。
OpenAI o1 型号
九月份发布的产品包括两个型号:o1-preview 和 o1-mini。它们是一系列机型中的首批机型,随着OpenAI 对新型LLM 的不断完善,这些机型还将陆续发布。
区别是什么?o1-mini 机型比预览机型小,价格便宜 80%。它专为需要高级推理但不需要更广泛知识的任务而设计。它非常适合涉及编码或数学的任务。
OpenAI o1 有多智能?
OpenAI o1 的推理能力:
- 在物理、化学和生物学基准测试中的表现与博士生相似。
- 在美国数学奥林匹克竞赛美国预选赛中进入前 500 名。
- 在竞争激烈的编码测试 Codeforces 中排名第 89 位。
有关 o1 推理能力的更多信息,请参阅OpenAI 的研究报告。
o1 与GPT-4o 有什么不同?
越狱更难
随着LLMs 的普及和功能的增强,安全问题日益突出,因此安全问题成为OpenAI最新开发的重点。公司在开发 o1 系列产品时,与美国和英国的人工智能安全研究所合作,并与美国政府合作进行尽职调查。
作为一大进步,o1 系列比以前的机型更难越狱–绕过安全措施。
在一项最难的越狱测试中,o1-preview 模型获得了 84 分(满分 100 分),而GPT-4o 则只有令人沮丧的 22 分。
更擅长数学
推理能力越强,数学能力就越强。
o1 和GPT-4o 都被要求完成国际奥林匹克数学竞赛的资格考试。GPT-4o 解决了 13% 的问题,而 o1 解决了 83% 的问题。
谁可以使用 o1?
从 9 月 12 日起,ChatGPT Plus 和团队用户可以访问ChatGPT 中的 o1 模型。
OpenAI 宣布将向免费用户提供 o1-mini,但具体日期尚未确定。
目前,01-preview 和 o1-mini 的每周费率限制分别为 30 条和 50 条,但不久后将会提高。
我应该用 o1 来做什么?
o1 增强的推理能力特别适用于解决数学、科学和编码方面的复杂问题。正如OpenAI 所解释的那样:
“o1可被医疗保健研究人员用于注释细胞测序数据,被物理学家用于生成量子光学所需的复杂数学公式,还可被各领域的开发人员用于构建和执行多步骤工作流程”。
OpenAI o1 的局限性
作为预览版,该型号还不具备GPT-4o 的所有功能。如果您想使用LLM 浏览网页以获取信息,或者想上传文件或图片,在 o1 的后续型号发布之前,您需要坚持使用GPT-4o。
如何提示OpenAI o1
OpenAI与以前的模型相比,o1 的提示建议发生了变化,因为它的推理能力得到了增强。
提示要简单。这是一个智能模型,不需要像GPT-4 系列那样多的指导。这意味着要避免输入任何思维链–模型内部已经在进行推理了。