OpenAI发布最新推理模型o3,AI竞赛再升级
AI导读:
OpenAI在“OpenAI 12天活动”的最后一天发布了最新的人工智能推理模型o3和o3-mini,这两款模型在软件工程、编写代码、竞赛数学等方面表现惊艳,进一步推动了人工智能向通用人工智能(AGI)迈进。
OpenAI在“OpenAI 12天活动”的尾声,由首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini。这两款模型是在今年早些时候推出的o1模型基础上开发的,旨在进一步推动人工智能向通用人工智能(AGI)迈进。
此次活动的首尾都聚焦于推理模型的介绍,形成了首尾呼应的精心设计。o3和o3-mini采用了OpenAI所称的“私人思维链”技术,能够在响应之前暂停检查内部对话,并进行提前规划,这被称之为“模拟推理”(SR),是一种超越基本大型语言模型(LLM)的人工智能形式。
OpenAI为避免与英国电信运营商o2的商标冲突,选择了“o3”作为最新推理模型的名称。奥特曼在直播中称赞o3为“一个非常、非常聪明的模型”。评估结果显示,o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面,都显著优于o1。特别是在OpenAI实现AGI的奋斗目标上,o3取得了突破,最高测试成绩达到了类人水平。
o3模型在视觉推理基准ARC-AGI上获得了破纪录的分数,自2019年创建以来一直保持不败。在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%,与人类在85%阈值下的表现相当。此外,o3还在2024年美国数学邀请赛中取得了96.7%的高分,在GPQA Diamond上也达到了87.7%的优异成绩。在EpochAI的前沿数学基准上,o3解决了25.2%的问题,远超其他模型。
o3-mini版本则包括自适应思考时间功能,提供低、中、高处理速度,更高的计算设置可以产生更好的结果。在Codeforces基准测试中,o3-mini的性能超过了其前身o1。然而,尽管o3表现完美,但其计算投入成本并不低。在低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务则需要数千美元。
推理模型作为人工智能的核心技术之一,具备强大的数据处理和分析能力,其应用范围广泛。尽管o3的测评表现惊艳,但OpenAI并未计划很快面向大众上线这款新的超级推理模型。目前,o3和o3-mini尚未正式发布,安全研究人员可以注册获取o3-mini的预览版,而o3预览版也将在之后的某个时间推出。
奥特曼在直播中表示,他更希望有一个联邦政府的测试框架来指导监控和减轻此类模型的风险。此外,除了OpenAI,其他AI公司也纷纷发布推理模型,如月之暗面的k0-math、DeepSeek的DeepSeek-R1-Lite预览版、阿里云的QwQ-32B-Preview以及谷歌的Gemini 2.0 Flash Thinking等。
谷歌的Gemini 2.0 Flash Thinking使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,让用户能更清晰地了解模型如何得出结论。尽管这一新模型还处于实验性阶段,但它已经登上了Chatbot Arena大模型评估的榜首。
(文章来源:北京商报,图片来源于网络)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。