模型代号:
o3-mini
o3-mini-2025-01-31
我们推出了 OpenAI o3-mini,这是我们推理系列中最新、最具性价比的模型,现已在 ChatGPT 和 API 中上线。该模型在 2024 年 12 月进行了预览,这一强大且快速的模型突破了小型模型的界限,提供了卓越的 STEM 能力——尤其擅长科学、数学和编码——同时保持了 OpenAI o1-mini 的低成本和低延迟。
OpenAI o3-mini 是我们首个支持开发者高度请求功能的小型推理模型,包括函数调用、结构化输出和开发者消息,使其可以立即投入生产使用。与 OpenAI o1-mini 和 OpenAI o1-preview 一样,o3-mini 将支持流式输出。此外,开发者可以选择三种推理努力选项——低、中、高——以优化他们的特定用例。这种灵活性使得 o3-mini 在应对复杂挑战时可以“加倍努力”,或者在延迟成为关切时优先考虑速度。o3-mini 不支持视觉能力,因此开发者应继续使用 OpenAI o1 进行视觉推理任务。o3-mini 今天开始在聊天补全 API、助手 API 和批处理 API 中向 API 使用层级 3-5 的部分开发者逐步推出。
ChatGPT Plus、团队和专业用户从今天开始可以访问 OpenAI o3-mini,企业用户将在 2 月份获得访问权限。o3-mini 将在模型选择器中取代 OpenAI o1-mini,提供更高的速率限制和更低的延迟,使其成为编码、STEM 和逻辑问题解决任务的绝佳选择。作为此次升级的一部分,我们将 Plus 和团队用户的速率限制从使用 o1-mini 每天 50 条消息提高到使用 o3-mini 每天 150 条消息。此外,o3-mini 现在可以与搜索功能结合使用,以找到最新的答案并链接到相关的网络资源。这是我们在努力将搜索整合到我们的推理模型中的早期原型。
从今天开始,免费计划用户也可以通过在消息编辑器中选择“推理”或重新生成响应来尝试 OpenAI o3-mini。这标志着推理模型首次向 ChatGPT 的免费用户开放。
虽然 OpenAI o1 仍然是我们更广泛的通用知识推理模型,但 OpenAI o3-mini 为需要精度和速度的技术领域提供了一种专业替代方案。在 ChatGPT 中,o3-mini 使用中等推理努力,以在速度和准确性之间提供平衡的折衷。所有付费用户还可以选择在模型选择器中选择 o3-mini-high,以获得一个更智能的版本,该版本需要更长的时间生成响应。专业用户将无限制访问 o3-mini 和 o3-mini-high。
快速、强大,优化以进行 STEM 推理
与其 OpenAI o1 前身类似,OpenAI o3-mini 已针对 STEM 推理进行了优化。中等推理努力的 o3-mini 在数学、编码和科学方面与 o1 的表现相匹配,同时提供更快的响应。专家测试人员的评估显示,o3-mini 提供的答案比 OpenAI o1-mini 更准确、更清晰,推理能力更强。测试员选择 o3-mini 的响应超过 o1-mini 的 56% 的时间,并观察到在困难的实际问题上重大错误减少了 39%。在中等推理努力下,o3-mini 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)中与 o1 的表现相匹配。
竞赛数学 (AIME 2024)
博士级科学问题 (GPQA钻石)
边界数学
竞争代码(Codeforces)
软件工程(SWE-bench 验证)
实时编码
常识
人类偏好评估
模型速度与性能
与OpenAI o1相当的智能,OpenAI o3-mini提供了更快的性能和更高的效率。除了上述的STEM评估,o3-mini在中等推理努力下,在其他数学和真实性评估中表现出更优的结果。在A/B测试中,o3-mini的响应速度比o1-mini快24%,平均响应时间为7.7秒,而o1-mini为10.16秒。
o1-mini与o3-mini的延迟比较(中等)
下一个步骤
OpenAI o3-mini 的发布标志着 OpenAI 在推动经济高效智能的使命上又迈出了重要一步。通过优化 STEM 领域的推理,同时保持低成本,我们使高质量的 AI 变得更加可获取。该模型延续了我们降低智能成本的记录——自 GPT-4 发布以来,每个标记的定价降低了 95%——同时保持顶级的推理能力。随着 AI 的普及,我们仍然致力于在前沿引领潮流,构建在规模上平衡智能、效率和安全性的模型。