AI导读:

OpenAI推出新一代推理模型o3-mini,具备低成本、低延迟和强大能力,旨在应对国内大模型公司DeepSeek的竞争压力。同时,OpenAI也在寻求新一轮融资以维持竞争优势。

当地时间1月31日,OpenAI正式推出了其新一代推理模型o3系列的mini版本——o3-mini。据OpenAI官方介绍,o3-mini以其卓越的成本效益在科学、数学、编程等多个领域展现出了强大的能力,同时继承了o1-mini的低成本和低延迟优势。更为先进的是,o3-mini能够与联网搜索功能无缝对接,尽管目前尚不支持视觉功能。

OpenAI强调,o3-mini的能力可根据需求设置为低等、中等、高等三个级别。在中等能力设置下,o3-mini与o1在数学、编程和科学领域的表现旗鼓相当,但响应速度更为迅速。经过专家测试人员的严格评估,o3-mini的答案不仅比o1-mini更为准确清晰,而且在解决现实世界难题上的主要错误率降低了39%。

从测试成绩来看,o3-mini在一些关键领域的表现超越了o1。在数学测试AIME 2024中,o3-mini获得87.3分,高于o1的83.3分;在博士水平测试GPQA Diamond中,o3-mini得分为79.7,略高于o1的78分;在竞赛编码测试Codeforces和软件工程测试sw-bench中,o3-mini分别以2130分和49.3分的成绩优于o1的1891分和48.9分。此外,o3-mini在编码测试LiveBench中同样表现优异,超越o1,同时在一般知识测试General knowledge中也超过了o1-mini。

在速度方面,o3-mini在A/B测试中的平均响应时间仅为7.7秒,较o1-mini快了24%。这一显著提升使得o3-mini在处理大量数据和复杂任务时更加高效。

值得注意的是,在国内大模型领域,DeepSeek公司近期发布了DeepSeek-R1模型,并声称其性能与OpenAI的o1正式版相当。DeepSeek-R1不仅开源,而且其API价格明显低于o1,为市场带来了新的竞争格局。面对这一挑战,OpenAI CEO山姆·奥尔特曼(Sam Altman)于1月23日宣布将推出o3-mini版本,并首次向ChatGPT免费用户提供推理模型服务。用户可在消息编辑器中选择“Reason”功能来体验o3-mini。

对于付费用户而言,他们的使用范围更为广泛,可以使用o3-mini的高等能力。ChatGPT Plus和Team用户的流量限制也从o1-mini的每日50条增加至o3-mini的每日150条,而Pro用户则可以无限制地使用o3-mini。这一举措无疑将进一步提升ChatGPT的用户体验和吸引力。

在API调用价格方面,OpenAI也在持续降低。自GPT-4推出以来,每个token的定价已下降了95%。o3-mini的输入(缓存命中)和输出每百万tokens的定价分别为0.55美元和4.4美元,尽管仍高于DeepSeek-R1,但已显示出OpenAI在成本控制方面的努力。

尽管DeepSeek未公开DeepSeek-R1的训练成本,但根据其此前公布的另一个模型DeepSeek-v3的训练预算(2048个GPU、2个月、近600万美元),外界推测DeepSeek-R1在具备与o1相当能力的同时,训练成本可能也相对较低。这可能意味着DeepSeek团队在AI技术研发方面具有较高的水平。随着DeepSeek近期受到广泛关注,OpenAI也面临了一定的市场竞争压力。

为了维持自身的竞争优势,OpenAI不仅在产品层面推出了o3-mini以应对市场挑战,还在资本层面寻求新的融资机会。有消息称,OpenAI正在就新一轮融资进行谈判,拟筹资金额高达400亿美元,由软银集团牵头。若该轮融资成功完成,将使OpenAI的估值达到3000亿美元。然而,这一传言尚未得到OpenAI的官方证实。

(文章来源:第一财经)