DeepSeek发布V3模型小版本更新,参数高达6850亿
AI导读:
DeepSeek发布了V3模型的小版本更新——DeepSeek-V3-0324,其开源版本已在Hugging Face平台上线,模型参数高达6850亿。V3模型采用了创新的负载均衡策略和节点受限的路由机制,提高了训练效率。据评测数据显示,其代码能力得分较高。
3月24日晚,Deepseek发布了模型更新——DeepSeek-V3-0324。本次更新为V3模型的小版本迭代,并非市场期待的V4或R2版本。目前,其开源版本已在Hugging Face平台上线,模型参数高达6850亿。

同日,DeepSeek宣布V3模型完成小版本升级,用户可前往官方网页、App、小程序体验(关闭深度思考功能),API接口及使用方法保持不变。

去年12月发布的DeepSeek-V3模型以高性价比著称,其评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等模型,性能与GPT-4o和Claude-3.5-Sonnet相当。但至今,新版V3的能力基准测试榜单尚未发布。
今年1月,DeepSeek发布了DeepSeek-R1模型,该模型在后训练阶段采用了强化学习技术,极大提升了模型推理能力。
V3模型是一个专家混合模型(Moe),拥有6710亿参数,其中370亿参数处于激活状态。
传统大模型采用密集神经网络结构,需要大量算力。而混合专家模型中,专家负载不均衡是难题,会引发路由崩溃。DeepSeek对V3进行了创新,采用辅助损失免费的负载均衡策略,并引入节点受限的路由机制,提高训练效率。
据国外开源评测平台数据显示,V3-0324代码能力得分328.3,超过Claude 3.7 Sonnet(322.3),接近思维链版本(334.8分)。
本文综合公开信息,来源每日经济新闻。
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。