AI导读:

OpenAI正式推出全新推理模型o3-mini,并首次向免费用户开放。该模型在编程、数学、科学等领域表现出色,性能大幅提升,为付费用户提供了更快、更高效的推理服务。

当地时间1月31日,全球领先的人工智能研究机构OpenAI正式推出了其最新的推理模型——o3-mini,并首次向免费用户开放该模型的推理功能。o3-mini作为OpenAI推理系列中的最新成员,以其卓越的成本效益比,在ChatGPT和API平台中正式上线,标志着OpenAI在人工智能推理领域又迈出了重要一步。

图片来源:OpenAI

早在2024年12月的直播活动中,轻量级推理大模型o3-mini便与“满血版”的o3模型一同亮相。OpenAI宣称,o3模型具备更为先进、近似人类的推理能力,尤其在解决编程、数学、科学等理工科问题方面,其表现已经超越了现役的o1模型。而o3-mini作为o3的轻量化版本,同样继承了其强大的推理能力。

OpenAI详细介绍称,o3-mini支持开发者根据实际需求调整“AI推理努力程度”的选项,这一选项分为低、中、高三个级别。这种灵活的设计使得o3-mini能够在面对复杂难题时“更努力思考”,而在需要快速响应的场景下,则能够优先考虑回应速度,从而满足多样化的应用需求。

在当地时间1月31日的新闻稿中,OpenAI披露了o3-mini在2024年美国数学邀请赛(AIME 2024)中的测试结果。在低推理努力程度下,o3-mini的准确率(60%)与o1-mini相当,但响应速度更快;而在中等推理努力程度下,o3-mini的准确率能够提升至79.6%,与o1模型持平;在最高推理努力程度下,o3-mini的准确率更是高达87.3%,展现出了强大的推理能力。

在博士级科学问题(GPQA Diamond)方面,o3-mini同样表现出色。在三种推理努力程度下,o3-mini的准确率分别为70.6%、76.8%和79.7%,均高于前代模型。

此外,在FrontierMath前沿数学与Codeforces等编程竞赛方面,o3-mini也展现出了明显的优势。在某些评测中,o3-mini的表现甚至远超前代模型,充分证明了其强大的推理能力和广泛的应用潜力。

在通用知识方面,o3-mini同样表现出色。在各种知识评测中,o3-mini的准确率均高于o1-mini,能够为用户提供更准确、更可靠的答案。

值得一提的是,在智能水平与o1相当的前提下,o3-mini提供了更快的性能和更高的效率。在采用中等推理努力程度的情况下,o3-mini在数学和事实性评估中也展现出了更出色的表现。在A/B测试中,o3-mini的响应速度比o1-mini快24%,平均响应时间为7.7秒,而o1-mini则为10.16秒。在延迟方面,o3-mini的首个token平均比o1-mini快2500毫秒。

横向对比来看,DeepSeek-R1模型在AIME 2024测试中的准确率为79.8%,而在GPQA Diamond测试中的准确率为71.5%,虽然表现不俗,但o3-mini在同等条件下展现出了更强的竞争力。

有专家在社交媒体上表示,受DeepSeek等模型的影响,OpenAI现在也开始展示推理模型的思维过程,这一变化将有助于用户更好地理解模型的推理逻辑和决策过程。

对于付费用户而言,o3-mini的推出同样带来了诸多利好。在模型选择器中,o3-mini将替代o1-mini,成为付费用户的新选择。作为升级的一部分,每月花费约20美元的ChatGPT Plus和Team用户,其速率限制也从o1-mini的每天50条提升至o3-mini的150条。而每月支付200美元的ChatGPT Pro用户,则能够无限制地访问o3-mini,享受更为高效、智能的推理服务。

本文综合了OpenAI官网及公开资料,旨在为读者提供关于o3-mini模型的最新动态和详细解读。

(文章来源:每日经济新闻)