李飞飞团队低成本训练出媲美Deepseek-R1的s1模型
AI导读:
华裔科学家李飞飞团队成功以不到50美元的成本训练出能力媲美Deepseek-R1的s1模型,这一突破性进展得益于阿里云通义千问模型的监督微调技术和高质量数据集。这一成果为人工智能领域带来了新的研究方向,也推动了开源大模型对行业格局的影响。
近日,财经界传来震撼消息,华裔科学家、“AI教母”李飞飞的团队成功以不到50美元的成本,训练出了一个能力可媲美Deepseek系列中DeepSeek-R1模型的s1模型。这一突破性进展得益于阿里云通义千问(Qwen)模型的监督微调技术。据相关人士透露,这一训练过程并非从零开始,而是基于Qwen模型的深厚基础。
李飞飞团队在公开论文中详细阐述了这一成果。他们利用Qwen2.5-32B-Instruct语言模型,通过监督微调,打造出了s1-32B模型。在竞赛数学问题上的测试中,s1-32B模型的表现超越了o1-preview,最高提升幅度达到了27%(在MATH和AIME24竞赛中)。这一成果标志着s1-32B模型在数学及编码能力上,已达到了与OpenAI的o1和Deepseek的R1等尖端推理模型相当的水平。而这一切,都是在极低成本下实现的。
李飞飞团队如何以如此低的成本实现这一壮举?关键在于他们使用了高质量的数据集和创新的测试时间扩展技术。他们构建了一个包含1000个问题及其推理轨迹的小型数据集s1K,并开发了预算强制(budget forcing)技术,以延长模型思考时间,从而在超低成本下构建出一个高质量模型。
从技术角度来看,李飞飞团队的成功证明了数据样本的高质量以及简单的测试时间扩展可以大幅提升模型训练效率。他们仅在16个H100 GPU上花费了26分钟就完成了模型训练。这一成果不仅展示了低成本训练高性能模型的可能性,也为人工智能领域带来了新的研究方向。
此外,李飞飞团队还强调了高质量数据在人工智能研究中的重要性。他们认为,当前AI训练数据并不存在短缺问题,而是有大量差异化的数据等待挖掘。高质量数据正变得前所未有的重要,是人工智能研究的核心。
在s1模型的训练中,李飞飞团队还开发了一项“预算强制”技术来控制模型在测试时的计算量。这一技术通过设定推理token的上限,强制结束推理过程或鼓励模型进行更深入的推理探索,从而影响模型的推理深度和最终答案。这种方法还可以使模型重新检查其答案,修正错误的推理步骤,提高推理性能。
目前,s1模型及其训练数据和代码已在GitHub上开源。李飞飞团队表示,他们希望这一成果能够激发未来关于简单推理的研究,推动人工智能领域的进一步发展。
随着大模型“烧钱”现象的降温,如何用更低的成本训练高性能模型已成为业内关注的焦点。李飞飞团队的监督微调技术和Deepseek的蒸馏技术都是降低高性能模型训练成本的有效途径。这两种技术路线虽然不同,但都实现了新模型的高性能表现。
开源大模型对行业格局的影响正在加深。根据开源社区HuggingFace的数据统计,海内外开源社区中Qwen的衍生模型数量已突破9万。大模型开源生态正在迅速发展壮大。在模型训练“性价比”受关注的当下,开源大模型正在给闭源大模型带来持续挑战。
广发证券研究指出,随着Deepseek全球下载量的登顶和R1的完全开源,以及API服务定价远低于OpenAI的情况出现,海外市场普遍认为训练和推理成本的下降将带来更快的创新、模型的普及以及更多推理需求。这将对基础模型开发公司(闭源)带来挑战,因为更便宜的开源选项会吞噬市场需求。
未来,随着更多开源大模型的发展以及模型训练技术、数据质量的提升探索,行业的更多玩家也将受到影响。大模型成本、效率的提升可能给AI应用类公司带来利好。同时,云厂商间的竞争也在加速关注Deepseek等开源大模型的生态服务抢食开源大模型算力需求。
在这场大模型技术“普惠”与技术升级的多径赛跑上,更多像Deepseek和s1这样的故事正被业界期待。这将给从业者带来更多快速迭代和追赶的压力,同时也将推动人工智能领域不断向前发展。
(文章来源:第一财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。