OpenAI发布o3推理模型，技术突破再度加速AGI进程

要点速达👈

🚀OpenAI发布o3推理模型，表现超越o1，数学推理领域创下25.2%的新纪录。
💡o3模型推理能力强大，但计算成本高，处理时间较长。
🤖o3尚未实现AGI，仍在简单任务上存在不足，距真正的人工通用智能仍有一段距离。
💵高计算模式成本每次数千美元，低计算模式则约20美元。
⚡OpenAI推出o3-mini，优化了速度与效率，在高难度任务中超越o1模型。
🔒o3与o3-mini目前仅开放给少数AI安全领域研究人员，公众使用仍待优化。

数智朋克报道，OpenAI于“双十二”发布了其最新的推理模型——o3，这是继9月发布o1推理模型后的又一次重要突破。原本计划命名为o2的模型最终跳过了该编号，选择直接推出o3，主要是为了避免与英国电信公司O2的商标冲突。此次发布紧随谷歌推出推理模型的前一天，展现了OpenAI在AI技术迭代中的紧迫感和市场竞争力。

o3模型在多个领域的推理能力上超越了o1，尤其在科学、数学及编码等复杂任务中表现突出。OpenAI透露，o3在高级数学推理中取得了显著进展，其在EpochAI Frontier Math测试中的准确率高达25.2%，创下了历年来最高记录。这一成绩不仅展示了其在数学推理上的优势，还突显了其在处理复杂任务中的强大潜力。

然而，o3的推理能力虽强，但也带来了较长的处理时间，计算成本显著增加。

尽管o3在推理能力上表现出色，但OpenAI与专家都明确指出，o3尚未实现人工通用智能（AGI）。OpenAI的负责人表示，尽管o3在多项测试中超越了前代模型，但在某些简单任务上仍然会出错，表明其与人类智能之间存在明显差距。AGI的实现仍需应对那些对人类来说简单，却对AI构成巨大挑战的任务。ARC-AGI测试的创始人François Chollet强调，真正的AGI应能够解决这些近乎不可能的任务，届时才能被视为AGI的真正实现。

o3在ARC-AGI基准测试中的表现非常亮眼，在高计算模式下取得了87.5%的高分，低计算模式下则为75.7%。这些成绩显示出o3较o1的性能提升了三倍之多，尽管高计算模式下的任务成本相对较高，每次任务费用高达数千美元。相比之下，低计算模式下的任务费用较为经济，大约为每次20美元。

为了满足不同需求，OpenAI还推出了o3-mini。该版本侧重提升速度和效率，尤其适用于低、中等复杂度任务的处理，能够在保持较低计算成本的同时，提升推理能力。尽管o3-mini在某些基准测试中表现与o1-mini相似，但在高难度任务上，o3-mini的表现超过了完整版o1模型。这样的优化不仅提升了响应速度，还有效降低了计算成本。

目前，o3和o3-mini尚未向公众开放。OpenAI表示，这两个版本将在AI安全和网络安全领域的研究人员中进行有限测试，以收集反馈并进一步确保模型的安全性。在完成安全性和性能的进一步优化后，o3才会面向更广泛的用户群体开放使用。

随着o3的发布，OpenAI在推理能力和高级任务处理方面取得了显著进展。尽管AGI的实现仍然遥远，但o3的问世为实现这一目标迈出了坚实的一步。未来，o3的推出将推动关于推理能力、效率和安全性的进一步探索，为AGI的到来铺平道路。

OpenAI发布o3推理模型，技术突破再度加速AGI进程

数智资讯订阅