OpenAI发布o3及o3-mini模型,展现AI新突破
AI导读:
OpenAI在为期12天的线上新品发布活动最后一天,宣布了o1的下一代模型o3及其精简版o3-mini。o3在软件工程、编写代码、竞赛数学及掌握人类博士级别的自然科学知识能力方面均远超o1,且在实现通用人工智能(AGI)的目标上取得显著突破。
当地时间12月20日周五,在为期12个工作日的线上新品发布活动最后一日,OpenAI宣布了“压轴大作”——o1的下一代模型o3,且首次推出两个版本,即正式版o3与精简版o3-mini。
OpenAI的CEO Sam Altman在直播中透露,本次活动第一天官宣了o1正式版的上线,最后一天则推出了o3,首尾都聚焦推理模型,设计巧妙。
逻辑上,o1的下一代应命名为o2,但OpenAI为避免与英国电信服务商O2重名,选择将新模型命名为o3。Altman对此进行了确认,表示出于尊重未采用o2命名。
Altman在直播中赞誉o3为“极其聪明的模型”。OpenAI的评估结果显示,o3在软件工程、编写代码、竞赛数学及掌握人类博士级别的自然科学知识能力方面,均远超o1。同时,o3在OpenAI实现通用人工智能(AGI)的目标上取得了显著突破,最高测试成绩达到类人水平。
今年9月,OpenAI发布o1预览版时,称其为首个具备真正通用推理能力的大模型,在GPQA-diamond基准测试中全面超越人类博士专家,准确率达78.3%。
12月20日的直播中,OpenAI展示了o3的测评表现:
在OpenAI推出的SWE-bench Verified代码生成评估基准中,o3在软件工程能力测评中的准确度得分高达71.7%,远超o1的48.9%和o1预览版的41.3%。这意味着o3的准确率比o1正式版高出近47%,比o1预览版高出近74%。
在Codeforces的竞争性代码测评中,o3获得2727的Elo评分,远高于o1的1891分和o1预览版的1258分。这表明在竞争性代码方面,o3的评分比o1正式版高出44%,是o1预览版的两倍多。
在2024年AIME数学竞赛题目测试中,o3的准确度得分高达96.7%,仅错了一道题,表现相当于顶级数学家水平。与o1预览版的56.7%和o1的83.3%相比,o3的准确率分别高出近71%和15%。
在GPQA-diamond基准测试中,o3在化学、物理和生物学专业知识的准确度得分为87.7%,高于o1的78.0%和o1预览版的78.3%。这表明o3的准确率比o1高出近13%,比o1预览版高出12%。
OpenAI还展示了o3在AGI方面的进展。在ARC-AGI评估中,o1的得分在25%至32%之间,而o3的最低成绩为75.7%,最高成绩更是高达87.5%,超过了人类水平的门槛85%。
前谷歌高级工程师、AI研究员Franois Chollet表示,OpenAI在AGI测试中取得的进步是稳健的。他在社交媒体上公布了与OpenAI合作的ARC-AGI测试结果,并指出这代表了AI适应新任务的重大突破。
与o3相比,o3Mini在性能与成本平衡方面表现优异,能够以较低的成本提供高效服务。在CodeForces的评估中,随着思考时间的增加,o3Mini的表现不断提升,逐渐超越o1Mini。
在中位思考时间下,o3Mini的性能甚至优于o1,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不大幅增加成本的情况下,获得更高效的编程辅助。
在数学能力测试中,o3Mini在2024年数据集上表现出色。在处理困难数据集时,o3Mini也能展现出优势,实现接近即时响应的效果。
此外,o3Mini支持函数调用、结构化输出等功能,与O1相当。在实际应用中,o3Mini在大多数评估中实现了可比或更好的性能。
现场演示中,o3Mini的强大功能得到了直观展示。例如,在一项任务中,模型成功启动本地服务器并生成用户界面,用户输入编码请求后,模型能够迅速处理并生成代码,随后自动执行。整个过程复杂且涉及大量代码处理,但o3Mini仍表现出极快的处理效率。
尽管o3测评表现出色,但OpenAI暂不会面向大众上线这款超级推理模型。从12月20日起,OpenAI允许安全研究人员注册访问o3和o3-mini的预览,并计划明年初正式发布。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。