AI导读:

DeepSeek公司发布了新一代混合专家语言模型DeepSeek-V3,性能卓越,比肩海外头部模型。同时,DeepSeek-V3提供了高性价比的API服务,为用户带来福音。

财中社12月30日电财通证券近期发布了一份关于计算机行业的深度报告,聚焦于国内AI模型的新进展。

12月26日,深度求索Deepseek公司震撼发布了其最新一代模型——DeepSeek-V3。这款混合专家(MoE)语言模型具备671B参数,实际激活37B,在14.8T的token数据上完成了预训练,展现了卓越的性能。DeepSeek-V3在多个基准测试中表现优异,性能已经对齐海外头部模型,彰显了中国AI技术的崛起。

作为国内自研的开源模型,DeepSeek-V3在Transformer架构的基础上,引入了多头潜在注意力(MLA)和DeepSeekMOE机制,实现了推理效率的提升和训练成本的控制。值得一提的是,DeepSeek-V3创新性地引入了无辅助损失的负载均衡策略和多token预测策略,进一步优化了训练过程。通过结合监督微调(SFT)和强化学习(RL),DeepSeek-V3能够与人类偏好更好地对齐,提高了模型的泛化能力。

在训练成本方面,DeepSeek-V3的完整训练过程仅需278.8万H800GPU小时,包括预训练、上下文长度扩展和后训练。DeepSeek-V3首次验证了FP8混合精度训练框架在超大规模模型上的可行性和有效性,降低了训练成本。综合评估显示,DeepSeek-V3的性能已经可以与闭源模型如GPT-4o-0513和Claude-3.5-Sonnet-1022相媲美,成为中国开源AI模型的佼佼者。

此外,随着DeepSeek-V3的上线,其API服务定价也进行了调整,每百万输入tokens的定价为0.5元(缓存命中)或2元(缓存未命中),每百万输出tokens的定价为8元,为用户提供了性价比极高的模型服务。

(文章来源:财中社)