DeepSeek发布V3模型小版本更新，参数高达6850亿

财经聚焦 2025-03-25 07:51:09 来源：每日经济新闻作者：网络

AI导读：

DeepSeek发布了V3模型的小版本更新——DeepSeek-V3-0324，其开源版本已在Hugging Face平台上线，模型参数高达6850亿。V3模型采用了创新的负载均衡策略和节点受限的路由机制，提高了训练效率。据评测数据显示，其代码能力得分较高。

3月24日晚，Deepseek发布了模型更新——DeepSeek-V3-0324。本次更新为V3模型的小版本迭代，并非市场期待的V4或R2版本。目前，其开源版本已在Hugging Face平台上线，模型参数高达6850亿。

同日，DeepSeek宣布V3模型完成小版本升级，用户可前往官方网页、App、小程序体验（关闭深度思考功能），API接口及使用方法保持不变。

去年12月发布的DeepSeek-V3模型以高性价比著称，其评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等模型，性能与GPT-4o和Claude-3.5-Sonnet相当。但至今，新版V3的能力基准测试榜单尚未发布。

今年1月，DeepSeek发布了DeepSeek-R1模型，该模型在后训练阶段采用了强化学习技术，极大提升了模型推理能力。

V3模型是一个专家混合模型（Moe），拥有6710亿参数，其中370亿参数处于激活状态。

传统大模型采用密集神经网络结构，需要大量算力。而混合专家模型中，专家负载不均衡是难题，会引发路由崩溃。DeepSeek对V3进行了创新，采用辅助损失免费的负载均衡策略，并引入节点受限的路由机制，提高训练效率。

据国外开源评测平台数据显示，V3-0324代码能力得分328.3，超过Claude 3.7 Sonnet（322.3），接近思维链版本（334.8分）。

本文综合公开信息，来源每日经济新闻。

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。