AI导读:

3月24日晚,DeepSeek-V3发布小版本升级,实测表现远超预期。与此同时,蚂蚁百灵凭借国产芯片训练,实现同等性能突破,并将训练成本降低20%。百灵大模型分为百灵Lite和百灵Plus,实验证明,使用国产低性能GPU芯片也能完成大语言模型训练。跨异构计算与分布式集群是百灵大模型训练的创新之举。

3月24日晚,Deepseek-V3发布小版本升级,实测表现远超预期。与此同时,国产大模型蚂蚁百灵凭借国产芯片训练,实现了同等性能的突破,并将训练成本降低了20%,这一消息迅速引起了市场的广泛关注。

蚂蚁团队公布的论文显示,百灵大模型分为两个版本:参数规模为168亿(激活参数27.5亿)的百灵Lite和参数规模为2900亿(激活参数288亿)的百灵Plus。实验证明,使用国产低性能GPU芯片也能完成3000亿参数的MoE(混合专家)大语言模型训练,且性能与英伟达芯片训练的同等参数模型相当。

论文中提到,MoE大模型训练通常依赖英伟达H100或H800等高性能GPU芯片,但高昂的成本和出口管制等问题限制了其普及。为此,百灵团队采用低性能GPU进行模型训练,并在模型训练环境、优化策略、基础设施、训练过程、评估结果和推理等方面进行全面优化,成功实现了低成本高性能模型的复现。

跨异构计算与分布式集群是百灵大模型训练的创新之举。蚂蚁相关人士介绍,该技术主要解决基座芯片的混合性能问题,通过分布式和跨异构计算来弥补不同品牌和型号芯片间的结构和性能差异,从而降低芯片成本,避免被单一芯片产能限制。

值得一提的是,百灵团队利用5种不同芯片配置的硬件训练百灵Plus,高性能硬件配置训练1万亿token(词元)的预训练成本约为635万元,而经百灵调优的低规格硬件训练成本降至约508万元,成本降低近20%,性能却与通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当。但相关人士也透露,这一测试结果是在实验环境中取得的,真实使用感受的差距仍有待验证。

目前,百灵大模型已在生活服务、金融服务、医疗健康等场景得到广泛应用。蚂蚁集团表示,未来将持续针对不同芯片进行优化,以降低AI应用成本,并计划将百灵Plus和百灵Lite两款大模型开源。

(文章来源:上观新闻)