DeepSeek-V3模型发布：性能比肩海外头部模型，高性价比服务上线

产业经讯 2024-12-30 10:11:11 来源：财中社作者：网络

AI导读：

DeepSeek公司发布了新一代混合专家语言模型DeepSeek-V3，性能卓越，比肩海外头部模型。同时，DeepSeek-V3提供了高性价比的API服务，为用户带来福音。

财中社12月30日电财通证券近期发布了一份关于计算机行业的深度报告，聚焦于国内AI模型的新进展。

12月26日，深度求索Deepseek公司震撼发布了其最新一代模型——DeepSeek-V3。这款混合专家（MoE）语言模型具备671B参数，实际激活37B，在14.8T的token数据上完成了预训练，展现了卓越的性能。DeepSeek-V3在多个基准测试中表现优异，性能已经对齐海外头部模型，彰显了中国AI技术的崛起。

作为国内自研的开源模型，DeepSeek-V3在Transformer架构的基础上，引入了多头潜在注意力（MLA）和DeepSeekMOE机制，实现了推理效率的提升和训练成本的控制。值得一提的是，DeepSeek-V3创新性地引入了无辅助损失的负载均衡策略和多token预测策略，进一步优化了训练过程。通过结合监督微调（SFT）和强化学习（RL），DeepSeek-V3能够与人类偏好更好地对齐，提高了模型的泛化能力。

在训练成本方面，DeepSeek-V3的完整训练过程仅需278.8万H800GPU小时，包括预训练、上下文长度扩展和后训练。DeepSeek-V3首次验证了FP8混合精度训练框架在超大规模模型上的可行性和有效性，降低了训练成本。综合评估显示，DeepSeek-V3的性能已经可以与闭源模型如GPT-4o-0513和Claude-3.5-Sonnet-1022相媲美，成为中国开源AI模型的佼佼者。

此外，随着DeepSeek-V3的上线，其API服务定价也进行了调整，每百万输入tokens的定价为0.5元（缓存命中）或2元（缓存未命中），每百万输出tokens的定价为8元，为用户提供了性价比极高的模型服务。

（文章来源：财中社）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。