AI导读:

OpenAI在为期12天的线上新品发布活动最后一天,正式推出o1的下一代模型o3及精简版o3-mini,在软件工程、编写代码、竞赛数学等方面表现卓越,并在AGI测评中取得突破性进展。

当地时间12月20日周五,OpenAI在线上新品发布活动的最后一天,正式揭晓了其“压轴之作”——o1的下一代模型o3,并同时推出正式版o3及精简版o3-mini。这一消息标志着OpenAI在人工智能领域迈出了重要一步。

OpenAI的CEO Sam Altman在直播活动中透露,本次为期12天的活动首尾呼应,均聚焦于推理模型的介绍,展现出OpenAI对推理能力的重视。活动首日推出了正式版o1,而最后一天则带来了全新升级的o3。

逻辑上,o1的下一代应命名为o2,但OpenAI为避免与英国电信服务商O2产生冲突,选择将新模型命名为o3。Altman在直播中确认了这一点,并表达了对O2的尊重。

Altman在直播中赞誉o3为“一个非常、非常聪明的模型”。OpenAI的评估结果显示,o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面,均显著超越o1。尤为重要的是,o3在OpenAI实现通用人工智能(AGI)的征程上取得了突破性进展,最高测试成绩已达到类人水平。

回顾今年9月,OpenAI发布o1预览版时,宣称o1是首个具备真正通用推理能力的大模型,并在化学、物理和生物学专业知识的基准测试GPQA-diamond上全面超越人类博士专家。此次,o3再次刷新了记录。

在直播中,OpenAI展示了o3在多个评估基准上的卓越表现:

根据SWE-bench Verified代码生成评估基准,o3在软件工程能力测评中的准确度得分为71.7%,远超o1的48.9%和o1 preview的41.3%。在竞争性编程网站Codeforces的测评中,o3的Elo评分高达2727,较o1的1891和o1 preview的1258有显著提升。

在2024年AIME数学竞赛题目测试中,o3的准确度得分高达96.7%,仅错了一道题,展现出顶级数学家的水平。而在GPQA-diamond基准测试中,o3的准确度得分为87.7%,同样超越o1和o1 preview。

此外,OpenAI还展示了o3在AGI评估中的出色表现。根据ARC-AGI评估结果,o3的最低成绩为75.7%,最高成绩更是高达87.5%,超过了标志着达到人类水平的门槛85%。

前谷歌高级工程师、AI研究员Franois Chollet表示,OpenAI在AGI测试中取得的进步是稳健的,并认为这代表了让AI适应新任务的重大突破。

在性能与成本平衡方面,o3Mini模型同样表现出色,能够以较低的成本提供高效的服务。在编码评估方面,o3Mini随着思考时间的增加,表现不断提升,甚至在中位思考时间下优于o1模型。在数学能力测试中,o3Mini也展现出与o1相当或更优的性能。

在现场演示中,o3Mini模型的强大功能得到了直观展示,能够迅速响应并处理复杂的代码请求。尽管o3的表现惊艳,但OpenAI计划明年初才正式发布这些新模型。

目前,OpenAI已开始允许安全研究人员注册访问o3和o3-mini的预览版。这一举措将为OpenAI收集更多反馈,以便进一步完善和优化这些新模型。

(文章来源:每日经济新闻)