OpenAI发布o3及o3-mini模型，AI技术实现重大飞跃

财经聚焦 2024-12-21 09:21:03 来源：每日经济新闻作者：网络

AI导读：

OpenAI发布o3及o3-mini模型，o3在多项测评中表现惊艳，展现卓越性能。同时，o3-mini在性能与成本平衡方面表现出色。OpenAI计划明年初正式发布这些新模型。

　　当地时间12月20日周五，OpenAI在其为期12个工作日的线上新品发布活动最后一天，隆重推出了o1的下一代模型o3，并同时发布精简版o3-mini，标志着AI技术的又一重大飞跃。

　　OpenAI的CEO Sam Altman在直播中表示，活动首尾都以介绍推理模型相呼应，这一安排彰显了OpenAI对此次发布的重视和精心策划。首日推出了正式版o1，而在最后一天，则迎来了o3的惊艳亮相。

　　虽然按照逻辑，o1的下一代应命名为o2，但OpenAI选择将新模型命名为o3，以避免与英国电信服务商O2的名称冲突。Altman在直播中确认了这一点，表达了对O2的尊重。

　　Altman在直播中盛赞o3为“一个极其聪明的模型”。OpenAI的评估结果显示，o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面，均显著超越o1。同时，o3在OpenAI实现通用人工智能（AGI）的征途上取得了突破性进展，最高测试成绩已达到类人水平。

　　今年9月，OpenAI发布o1预览版时，称其为首个具备真正通用推理能力的大模型，并在化学、物理和生物学专业知识的基准测试GPQA-diamond上全面超越人类博士专家。此次，o3再次刷新纪录，展现了更强的实力。

　　在直播中，OpenAI展示了o3在多项测评中的卓越表现：

　　在SWE-bench Verified代码生成评估基准中，o3的准确度得分高达71.7%，远超o1的48.9%和o1 preview的41.3%。这标志着o3在软件工程能力上取得了显著进步。

　　在竞争性编程网站Codeforces的测评中，o3的Elo评分高达2727，远超o1的1891和o1 preview的1258。这一结果进一步证明了o3在竞争性代码方面的卓越性能。

　　在AIME数学竞赛题目测试中，o3的准确度得分高达96.7%，仅错一道题，相当于顶级数学家的水平。这一成绩不仅远超o1预览版的56.7%和o1的83.3%，更彰显了o3在竞赛数学领域的卓越实力。

　　在GPQA-diamond基准测试中，o3的准确度得分为87.7%，同样远超o1和o1 preview。这一结果再次证明了o3在掌握人类博士级别自然科学知识能力方面的卓越表现。

　　此外，OpenAI还展示了o3在AGI评估中的卓越表现。在ARC-AGI评估中，o3的最低成绩为75.7%，最高成绩更是高达87.5%，超过了标志着达到人类水平门槛的85%。这一结果标志着o3在实现AGI的道路上取得了重大突破。

　　前谷歌高级工程师、AI研究员Franois Chollet表示，OpenAI这些推理模型在AGI测试中取得的进步是稳健的。他在社交媒体上公布了与OpenAI合作进行的ARC-AGI测试结果，并表示这代表了让AI适应新任务的重大突破。

　　与o3相比，o3Mini在性能与成本平衡方面表现出色，能够以较低的成本提供高效的服务。在编码评估中，o3Mini随着思考时间的增加，表现不断提升，逐渐超越了o1Mini。在中位思考时间下，o3Mini的性能甚至优于o1，能够以更低的成本提供相当甚至更好的代码性能。

　　在数学能力测试中，o3Mini同样表现出色。在处理困难数据集时，o3Mini也能展现出一定的优势，实现了接近即时响应的效果。此外，o3Mini还支持函数调用、结构化输出、开发者消息等一系列功能，与O1相当。

　　在现场演示中，o3Mini的强大功能得到了直观展示。例如，在一项任务中，模型被要求使用Python实现一个代码生成器和执行器。模型成功启动了本地服务器，并生成了包含文本框的用户界面。用户输入编码请求后，模型能够迅速处理并生成代码，随后自动执行。

　　尽管o3的测评表现惊艳，但OpenAI计划明年初才正式发布这一新模型。从12月20日开始，安全研究人员可以注册访问o3和o3-mini的预览版。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。