AI导读:

OpenAI发布o3及o3-mini模型,o3在多项测评中表现惊艳,展现卓越性能。同时,o3-mini在性能与成本平衡方面表现出色。OpenAI计划明年初正式发布这些新模型。

  当地时间12月20日周五,OpenAI在其为期12个工作日的线上新品发布活动最后一天,隆重推出了o1的下一代模型o3,并同时发布精简版o3-mini,标志着AI技术的又一重大飞跃。

  OpenAI的CEO Sam Altman在直播中表示,活动首尾都以介绍推理模型相呼应,这一安排彰显了OpenAI对此次发布的重视和精心策划。首日推出了正式版o1,而在最后一天,则迎来了o3的惊艳亮相。

  虽然按照逻辑,o1的下一代应命名为o2,但OpenAI选择将新模型命名为o3,以避免与英国电信服务商O2的名称冲突。Altman在直播中确认了这一点,表达了对O2的尊重。

  Altman在直播中盛赞o3为“一个极其聪明的模型”。OpenAI的评估结果显示,o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面,均显著超越o1。同时,o3在OpenAI实现通用人工智能(AGI)的征途上取得了突破性进展,最高测试成绩已达到类人水平。

  今年9月,OpenAI发布o1预览版时,称其为首个具备真正通用推理能力的大模型,并在化学、物理和生物学专业知识的基准测试GPQA-diamond上全面超越人类博士专家。此次,o3再次刷新纪录,展现了更强的实力。

  在直播中,OpenAI展示了o3在多项测评中的卓越表现:

  在SWE-bench Verified代码生成评估基准中,o3的准确度得分高达71.7%,远超o1的48.9%和o1 preview的41.3%。这标志着o3在软件工程能力上取得了显著进步。

  在竞争性编程网站Codeforces的测评中,o3的Elo评分高达2727,远超o1的1891和o1 preview的1258。这一结果进一步证明了o3在竞争性代码方面的卓越性能。

  在AIME数学竞赛题目测试中,o3的准确度得分高达96.7%,仅错一道题,相当于顶级数学家的水平。这一成绩不仅远超o1预览版的56.7%和o1的83.3%,更彰显了o3在竞赛数学领域的卓越实力。

  在GPQA-diamond基准测试中,o3的准确度得分为87.7%,同样远超o1和o1 preview。这一结果再次证明了o3在掌握人类博士级别自然科学知识能力方面的卓越表现。

  此外,OpenAI还展示了o3在AGI评估中的卓越表现。在ARC-AGI评估中,o3的最低成绩为75.7%,最高成绩更是高达87.5%,超过了标志着达到人类水平门槛的85%。这一结果标志着o3在实现AGI的道路上取得了重大突破。

  前谷歌高级工程师、AI研究员Franois Chollet表示,OpenAI这些推理模型在AGI测试中取得的进步是稳健的。他在社交媒体上公布了与OpenAI合作进行的ARC-AGI测试结果,并表示这代表了让AI适应新任务的重大突破。

  与o3相比,o3Mini在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。在编码评估中,o3Mini随着思考时间的增加,表现不断提升,逐渐超越了o1Mini。在中位思考时间下,o3Mini的性能甚至优于o1,能够以更低的成本提供相当甚至更好的代码性能。

  在数学能力测试中,o3Mini同样表现出色。在处理困难数据集时,o3Mini也能展现出一定的优势,实现了接近即时响应的效果。此外,o3Mini还支持函数调用、结构化输出、开发者消息等一系列功能,与O1相当。

  在现场演示中,o3Mini的强大功能得到了直观展示。例如,在一项任务中,模型被要求使用Python实现一个代码生成器和执行器。模型成功启动了本地服务器,并生成了包含文本框的用户界面。用户输入编码请求后,模型能够迅速处理并生成代码,随后自动执行。

  尽管o3的测评表现惊艳,但OpenAI计划明年初才正式发布这一新模型。从12月20日开始,安全研究人员可以注册访问o3和o3-mini的预览版。

(文章来源:每日经济新闻)