优秀财经网优秀的人都在用的资讯工具

财经关键词关于我们联系我们

全球指数

首页 > 财经 > 财经聚焦

OpenAI发布o3及o3-mini模型，展现AI新突破

财经聚焦 2024-12-21 09:20:48 来源：每日经济新闻作者：网络

AI导读：

OpenAI在为期12天的线上新品发布活动最后一天，宣布了o1的下一代模型o3及其精简版o3-mini。o3在软件工程、编写代码、竞赛数学及掌握人类博士级别的自然科学知识能力方面均远超o1，且在实现通用人工智能（AGI）的目标上取得显著突破。

　　当地时间12月20日周五，在为期12个工作日的线上新品发布活动最后一日，OpenAI宣布了“压轴大作”——o1的下一代模型o3，且首次推出两个版本，即正式版o3与精简版o3-mini。

　　OpenAI的CEO Sam Altman在直播中透露，本次活动第一天官宣了o1正式版的上线，最后一天则推出了o3，首尾都聚焦推理模型，设计巧妙。

　　逻辑上，o1的下一代应命名为o2，但OpenAI为避免与英国电信服务商O2重名，选择将新模型命名为o3。Altman对此进行了确认，表示出于尊重未采用o2命名。

　　Altman在直播中赞誉o3为“极其聪明的模型”。OpenAI的评估结果显示，o3在软件工程、编写代码、竞赛数学及掌握人类博士级别的自然科学知识能力方面，均远超o1。同时，o3在OpenAI实现通用人工智能（AGI）的目标上取得了显著突破，最高测试成绩达到类人水平。

　　今年9月，OpenAI发布o1预览版时，称其为首个具备真正通用推理能力的大模型，在GPQA-diamond基准测试中全面超越人类博士专家，准确率达78.3%。

　　12月20日的直播中，OpenAI展示了o3的测评表现：

　　在OpenAI推出的SWE-bench Verified代码生成评估基准中，o3在软件工程能力测评中的准确度得分高达71.7%，远超o1的48.9%和o1预览版的41.3%。这意味着o3的准确率比o1正式版高出近47%，比o1预览版高出近74%。

　　在Codeforces的竞争性代码测评中，o3获得2727的Elo评分，远高于o1的1891分和o1预览版的1258分。这表明在竞争性代码方面，o3的评分比o1正式版高出44%，是o1预览版的两倍多。

　　在2024年AIME数学竞赛题目测试中，o3的准确度得分高达96.7%，仅错了一道题，表现相当于顶级数学家水平。与o1预览版的56.7%和o1的83.3%相比，o3的准确率分别高出近71%和15%。

　　在GPQA-diamond基准测试中，o3在化学、物理和生物学专业知识的准确度得分为87.7%，高于o1的78.0%和o1预览版的78.3%。这表明o3的准确率比o1高出近13%，比o1预览版高出12%。

　　OpenAI还展示了o3在AGI方面的进展。在ARC-AGI评估中，o1的得分在25%至32%之间，而o3的最低成绩为75.7%，最高成绩更是高达87.5%，超过了人类水平的门槛85%。

　　前谷歌高级工程师、AI研究员Franois Chollet表示，OpenAI在AGI测试中取得的进步是稳健的。他在社交媒体上公布了与OpenAI合作的ARC-AGI测试结果，并指出这代表了AI适应新任务的重大突破。

　　与o3相比，o3Mini在性能与成本平衡方面表现优异，能够以较低的成本提供高效服务。在CodeForces的评估中，随着思考时间的增加，o3Mini的表现不断提升，逐渐超越o1Mini。

　　在中位思考时间下，o3Mini的性能甚至优于o1，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不大幅增加成本的情况下，获得更高效的编程辅助。

　　在数学能力测试中，o3Mini在2024年数据集上表现出色。在处理困难数据集时，o3Mini也能展现出优势，实现接近即时响应的效果。

　　此外，o3Mini支持函数调用、结构化输出等功能，与O1相当。在实际应用中，o3Mini在大多数评估中实现了可比或更好的性能。

　　现场演示中，o3Mini的强大功能得到了直观展示。例如，在一项任务中，模型成功启动本地服务器并生成用户界面，用户输入编码请求后，模型能够迅速处理并生成代码，随后自动执行。整个过程复杂且涉及大量代码处理，但o3Mini仍表现出极快的处理效率。

　　尽管o3测评表现出色，但OpenAI暂不会面向大众上线这款超级推理模型。从12月20日起，OpenAI允许安全研究人员注册访问o3和o3-mini的预览，并计划明年初正式发布。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。

相关文章

热门文章

看了这篇文章的还看了

微信扫一扫