优秀财经网优秀的人都在用的资讯工具

财经关键词关于我们联系我们

全球指数

首页 > 财经 > 财经聚焦

OpenAI发布o3及o3-mini模型，AGI测评取得突破性进展

财经聚焦 2024-12-21 09:20:20 来源：每日经济新闻作者：网络

AI导读：

OpenAI在为期12天的线上新品发布活动最后一天，正式推出o1的下一代模型o3及精简版o3-mini，在软件工程、编写代码、竞赛数学等方面表现卓越，并在AGI测评中取得突破性进展。

当地时间12月20日周五，OpenAI在线上新品发布活动的最后一天，正式揭晓了其“压轴之作”——o1的下一代模型o3，并同时推出正式版o3及精简版o3-mini。这一消息标志着OpenAI在人工智能领域迈出了重要一步。

OpenAI的CEO Sam Altman在直播活动中透露，本次为期12天的活动首尾呼应，均聚焦于推理模型的介绍，展现出OpenAI对推理能力的重视。活动首日推出了正式版o1，而最后一天则带来了全新升级的o3。

逻辑上，o1的下一代应命名为o2，但OpenAI为避免与英国电信服务商O2产生冲突，选择将新模型命名为o3。Altman在直播中确认了这一点，并表达了对O2的尊重。

Altman在直播中赞誉o3为“一个非常、非常聪明的模型”。OpenAI的评估结果显示，o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面，均显著超越o1。尤为重要的是，o3在OpenAI实现通用人工智能（AGI）的征程上取得了突破性进展，最高测试成绩已达到类人水平。

回顾今年9月，OpenAI发布o1预览版时，宣称o1是首个具备真正通用推理能力的大模型，并在化学、物理和生物学专业知识的基准测试GPQA-diamond上全面超越人类博士专家。此次，o3再次刷新了记录。

在直播中，OpenAI展示了o3在多个评估基准上的卓越表现：

根据SWE-bench Verified代码生成评估基准，o3在软件工程能力测评中的准确度得分为71.7%，远超o1的48.9%和o1 preview的41.3%。在竞争性编程网站Codeforces的测评中，o3的Elo评分高达2727，较o1的1891和o1 preview的1258有显著提升。

在2024年AIME数学竞赛题目测试中，o3的准确度得分高达96.7%，仅错了一道题，展现出顶级数学家的水平。而在GPQA-diamond基准测试中，o3的准确度得分为87.7%，同样超越o1和o1 preview。

此外，OpenAI还展示了o3在AGI评估中的出色表现。根据ARC-AGI评估结果，o3的最低成绩为75.7%，最高成绩更是高达87.5%，超过了标志着达到人类水平的门槛85%。

前谷歌高级工程师、AI研究员Franois Chollet表示，OpenAI在AGI测试中取得的进步是稳健的，并认为这代表了让AI适应新任务的重大突破。

在性能与成本平衡方面，o3Mini模型同样表现出色，能够以较低的成本提供高效的服务。在编码评估方面，o3Mini随着思考时间的增加，表现不断提升，甚至在中位思考时间下优于o1模型。在数学能力测试中，o3Mini也展现出与o1相当或更优的性能。

在现场演示中，o3Mini模型的强大功能得到了直观展示，能够迅速响应并处理复杂的代码请求。尽管o3的表现惊艳，但OpenAI计划明年初才正式发布这些新模型。

目前，OpenAI已开始允许安全研究人员注册访问o3和o3-mini的预览版。这一举措将为OpenAI收集更多反馈，以便进一步完善和优化这些新模型。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。

相关文章

热门文章

看了这篇文章的还看了

微信扫一扫