DeepSeek掀起AI革命，以低成本高效能重塑竞争优势

产业经讯 2025-02-07 04:51:47 来源：经济参考报作者：网络

AI导读：

中国初创企业深度求索（DeepSeek）发布两款性能比肩GPT-4o的大模型，以低成本高效能掀起全球科技界革命，重新定义大模型生产函数和计算方式，展现中国AI力量。

　　一家名为深度求索（DeepSeek）的中国人工智能初创企业，以其惊人的技术创新和低成本高效能的大模型，迅速在全球科技界掀起了一场革命性的风暴。

　　在短短一个月内，这家初创企业连续发布了两款性能与GPT-4o相媲美的大模型，凭借“1/18的训练成本、1/10的团队规模、不相上下的模型性能”，不仅震惊了硅谷，也让华尔街感受到了前所未有的冲击。《经济学人》杂志更是将最新一期的封面文章让位给了这位来自中国的科技新星，标题直指《低成本中国模型的成功动摇美国科技优势》。

　　DeepSeek的贡献远不止于“低成本”的标签。它重新定义了大模型的生产函数，更将重新定义计算方式。在开源与闭源的未来竞争中，DeepSeek的这股冲击波将迫使全球科技界重新思考：当“规模定律”与“生态壁垒”不再成为绝对优势时，AI竞争的核心将是什么？

　　颠覆传统认知，击穿三大定式

　　1月下旬，DeepSeek在中区和美区的苹果App Store下载榜单中一举夺魁，超越了ChatGPT、谷歌Gemini等科技巨头的模型产品。那么，DeepSeek究竟颠覆了什么？

　　——打破“越强越贵”的成本诅咒

　　DeepSeek-R1的API服务定价极为亲民，每百万输入tokens仅需1元（缓存命中）/4元（缓存未命中），每百万输出tokens也仅为16元。相比之下，o1模型的对应服务定价则高达55元、110元和438元。AI投资机构Menlo Ventures的负责人Deedy在对比谷歌Gemini和DeepSeek-R1后表示，DeepSeek-R1不仅更便宜，而且上下文更长、推理性能更佳。这种低成本却能比肩o1模型的表现，让硅谷的“烧钱模式”受到了前所未有的质疑。

　　在过去，大模型服务一直遵循着“一分钱一分货”的原则，高性能往往意味着高昂的费用。然而，DeepSeek打破了这一常规。

　　——超越“性能-成本-速度”的不可能三角

　　当硅谷还在为GPU万卡集群投入千亿资金时，DeepSeek用557.6万美元的预算证明了：AI大模型的竞争并不只靠规模，更重要的是实际效果。DeepSeek-V3模型的训练成本仅为557.6万美元，使用的是算力受限的英伟达H800 GPU集群。相比之下，Meta旗下的Llama-3.1模型训练成本超过6000万美元，而OpenAI的GPT-4o模型训练成本更是高达1亿美元，且使用的是性能更优异的英伟达H100 GPU集群。此外，DeepSeek在使用过程中的反馈时长也大多控制在5秒至35秒之间，成功压缩了计算时间，降低了延迟。

　　——走出“参数膨胀”的陷阱

　　在ChatGPT问世后的700多天里，全球人工智能巨头纷纷走上了“大力出奇迹”的路线，参数越炼越大，给算力、数据和能耗带来了巨大压力。然而，DeepSeek却选择了另一条路：不盲目追求参数之大，而是通过探索更高效的训练方法来实现性能提升。例如，DeepSeek-R1（4B参数）在数学推理、代码生成等任务上具有比肩70B参数模型（如Llama-2）的能力。

　　实现三大跃升，展现中国力量

　　“DeepSeek的出圈，很好地证明了我们的竞争优势：通过有限资源的极致高效利用，实现以少胜多。”面壁智能首席科学家刘知远表示，“中国与美国在AI领域的差距正在缩小。”

　　DeepSeek在技术架构、数据策略、工程实践三方面的关键突破，是其算力封锁下有力破局的关键。

　　——技术架构：重新定义参数效率

　　DeepSeek创新的架构将传统的串行高速路转变为辐射状的快递分拣中心，提高了速度并节约了能耗。

　　——数据策略：质量驱动的成本控制

　　DeepSeek采用的数据蒸馏技术，有针对性地筛选掉低质量数据，提高了训练效率并降低了成本。

　　——工程实践：架起“超级工厂”流水线

　　DeepSeek的3D并行技术相当于通过流水线并行和张量并行，实现了大模型训练的高效工业化。

　　超越技术的启示，引领未来创新

　　DeepSeek的成功不仅在于技术创新和成本革命，更在于其超越技术的启示。DeepSeek的目标并非利润而是使命，其愿景是“探索未至之境”。这种愿景与其极简且清爽的组织架构相匹配，使得DeepSeek能够很好地弥补大厂、高校、传统科研机构在创新上的结构性局限。

　　DeepSeek的V3模型关键训练架构MLA源于一位年轻研究员的个人兴趣，经过研判后公司组建了专项团队开展大规模验证与攻关。R1模型果断调整强化学习路线，领先于其他机构实现了近似o1的推理能力。这些成功的背后，是DeepSeek青年团队对前沿技术的敏锐嗅觉与大胆尝试。

　　“我们创新缺少的不是资本，而是信心以及组织高密度人才的能力。”DeepSeek创始人梁文锋表示，“中国要逐步成为贡献者，而不是一直‘搭便车’。”

　　DeepSeek的开源路线也赢得了广泛赞誉。将代码、模型权重和训练日志全部公开，不仅需要格局更需要勇气与实力。梁文锋解释称：“在颠覆性技术面前，闭源形成的护城河是短暂的。开源、发论文并不会失去什么，反而能让技术人员更有成就感。”

　　北京时间2月1日凌晨，OpenAI发布了其推理系列最新模型o3-mini，其中出现了“Deep research”的字眼。这是否是国产之光“被follow”的开端尚难断言，但DeepSeek已经走出了一条具有自主创新基因的制胜之道。

　　正如梁文锋此前所说：“中国要逐步成为贡献者。”DeepSeek正以实际行动践行这一愿景，为全球AI领域的发展贡献着中国智慧和力量。

（图片来源：网络；文章来源：经济参考报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。