DeepSeek-V3模型发布:性能比肩海外头部模型,高性价比服务上线
AI导读:
DeepSeek公司发布了新一代混合专家语言模型DeepSeek-V3,性能卓越,比肩海外头部模型。同时,DeepSeek-V3提供了高性价比的API服务,为用户带来福音。
财中社12月30日电财通证券近期发布了一份关于计算机行业的深度报告,聚焦于国内AI模型的新进展。
12月26日,深度求索Deepseek公司震撼发布了其最新一代模型——DeepSeek-V3。这款混合专家(MoE)语言模型具备671B参数,实际激活37B,在14.8T的token数据上完成了预训练,展现了卓越的性能。DeepSeek-V3在多个基准测试中表现优异,性能已经对齐海外头部模型,彰显了中国AI技术的崛起。
作为国内自研的开源模型,DeepSeek-V3在Transformer架构的基础上,引入了多头潜在注意力(MLA)和DeepSeekMOE机制,实现了推理效率的提升和训练成本的控制。值得一提的是,DeepSeek-V3创新性地引入了无辅助损失的负载均衡策略和多token预测策略,进一步优化了训练过程。通过结合监督微调(SFT)和强化学习(RL),DeepSeek-V3能够与人类偏好更好地对齐,提高了模型的泛化能力。
在训练成本方面,DeepSeek-V3的完整训练过程仅需278.8万H800GPU小时,包括预训练、上下文长度扩展和后训练。DeepSeek-V3首次验证了FP8混合精度训练框架在超大规模模型上的可行性和有效性,降低了训练成本。综合评估显示,DeepSeek-V3的性能已经可以与闭源模型如GPT-4o-0513和Claude-3.5-Sonnet-1022相媲美,成为中国开源AI模型的佼佼者。
此外,随着DeepSeek-V3的上线,其API服务定价也进行了调整,每百万输入tokens的定价为0.5元(缓存命中)或2元(缓存未命中),每百万输出tokens的定价为8元,为用户提供了性价比极高的模型服务。
(文章来源:财中社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。