AI导读:

2024年,AI行业迎来飞速发展,训练成本大幅下降,但商业化缓慢。展望2025年,AI技术趋势将包括AI4S驱动科学研究范式变革、统一多模态大模型等,Super APP的出现备受期待。

2024年,AI行业再度迎来了飞速发展的一年,大模型的快速落地、应用场景的不断创新以及高投入与商业化缓慢的并存,使得整个行业既充满希望又面临挑战。回首这一年,一些行业共识开始受到质疑,如智能算力的短缺问题、中国AI企业的“算力焦虑”是否必要,以及Scaling Law(规模法则)是否仍然值得信仰。

随着新年的到来,中国AI行业的“拐点”时刻愈发引人关注。尽管答案不再统一,但值得注意的是,中国AI企业正在经历一些积极的变化,同时也面临着更多待解的挑战。

在训练成本方面,2024年12月27日,中国大模型DeepSeek-V3在海外社交媒体平台X上引发了广泛关注。该模型能力对标头部模型,但训练预算极低,仅为“2048个GPU、2个月、近600万美元”,相比之下,GPT-4o等模型的训练成本高达1亿美元。这一数据展示了极致的性价比,DeepSeek-V3通过对算法、框架和硬件的优化协同设计,在预训练阶段,模型每训练1万亿token仅需要18万个GPU小时,即在团队配备2048个H800 GPU的集群上只需3.7天,预训练在不到2个月的时间完成。加上后训练,DeepSeek-V3完整训练消耗了278.8万个GPU小时。假设H800 GPU的租用价格为每块GPU 2美元/小时,DeepSeek-V3的全部正式训练成本总计仅为557.6万美元。DeepSeek的成功并非孤例,2024年,许多中国AI企业在高端算力资源受限的情况下,正在找到降低训练成本的方法。

极佳科技联合创始人兼首席科学家朱政透露,过去一年,公司训练大模型的成本也大幅下降。之前训练一个视觉模型大概需要500万美金,现在已降至100万美金以下。大模型公司正在加强与云厂商的合作,通过训练加速、通讯优化、设置优化等手段降低成本。同时,行业对数据优化也更为重视,数据优化带来的训练效率提升空间很大。

此外,中国AI企业的“抢卡”焦虑也有所缓解。朱政表示,虽然仍需购买最新架构的显卡,但随着训练效率的提升,所需规模会下降。未来进一步降低大模型的训练成本将更困难,需要训练框架、编程语言和显卡算式的支持。从全行业角度来看,蚂蚁集团科技战略与执行部副总经理彭晋表示,在采购先进算力困难的情况下,国内正在推进国产算力的替代。各大公司都在不断采购国产算力,国产算力已经可以支撑很大规模的模型训练。

展望未来,2025年中国AI行业将迎来哪些变化?北京智源人工智能研究院在《2025十大AI技术趋势》报告中指出,从基础设施到产品应用,AI发展的关键方向都可能迎来新的变化。报告认为,AI4S将驱动科学研究范式变革;具身智能领域将实现具身大小脑和本体的协同进化;统一的多模态大模型将实现更高效AI;Scaling Law将扩展至RL + LLMs,模型泛化将从预训练向后训练、推理迁移;世界模型将加速发布,有望成为多模态大模型的下一阶段;合成数据将成为大模型迭代与应用落地的重要催化剂;推理优化迭代加速将成为AI Native应用落地的必要条件;Agentic AI将成为产品落地的重要模式;AI应用将迎来Super APP,以及AI安全治理体系的持续完善。

中国自研的技术和产品正展现出这些趋势的到来。蚂蚁发布的支小宝、蚂小财等系列AI管家产品,智源研究院发布的完全自研的基于自回归技术的原生多模态世界模型Emu3,以及豆包成为国内第一、全球第二的AI原生应用,都体现了AI行业的快速发展。智能研究院行业研究组负责人倪贤豪提到,与2023年相比,2024年国内AI整体的应用热度已明显升温。基础模型的垂直产业链以及其他赛道AI应用的成熟度已有了明显提升,AI在3D内容、AI硬件等场景的应用以及医疗文献处理等未来场景的探索中,都有了明显拓展。

从国内大模型公开中标项目的类型分布来看,2024年10月,大模型应用类项目数量首次超过了算力类项目,占比已达到56%。国产大模型在垂直行业实现了加速落地,或是在诸多中大型企业扮演中台性质的基础设施。AI应用领域的Super APP能否在2025年出现同样受到业内关注。倪贤豪表示,随着大模型推理成本的下降以及相关问题的解决,推动Agent解决复杂问题的能力提升将变得更有可能也更关键。他认为,从用户视角切入,以需求反推技术或许能撬动AI应用的用户存量和增量市场,Super APP在2025年的诞生值得期待。

智源研究院院长王仲远表示:“当前,我们处在人工智能发展的新拐点,大模型的能力涌现加速通用人工智能时代的到来,原生统一多模态、具身智能、AI for Science将进一步深化人工智能对世界的感知、理解与推理,连接数字世界与物理世界,驱动科学研究创新突破。”