AI导读:

中国初创企业深度求索(DeepSeek)发布两款性能比肩GPT-4o的大模型,以低成本高效能掀起全球科技界革命,重新定义大模型生产函数和计算方式,展现中国AI力量。

  一家名为深度求索(DeepSeek)的中国人工智能初创企业,以其惊人的技术创新和低成本高效能的大模型,迅速在全球科技界掀起了一场革命性的风暴。

  在短短一个月内,这家初创企业连续发布了两款性能与GPT-4o相媲美的大模型,凭借“1/18的训练成本、1/10的团队规模、不相上下的模型性能”,不仅震惊了硅谷,也让华尔街感受到了前所未有的冲击。《经济学人》杂志更是将最新一期的封面文章让位给了这位来自中国的科技新星,标题直指《低成本中国模型的成功动摇美国科技优势》。

  DeepSeek的贡献远不止于“低成本”的标签。它重新定义了大模型的生产函数,更将重新定义计算方式。在开源与闭源的未来竞争中,DeepSeek的这股冲击波将迫使全球科技界重新思考:当“规模定律”与“生态壁垒”不再成为绝对优势时,AI竞争的核心将是什么?

  颠覆传统认知,击穿三大定式

  1月下旬,DeepSeek在中区和美区的苹果App Store下载榜单中一举夺魁,超越了ChatGPT、谷歌Gemini等科技巨头的模型产品。那么,DeepSeek究竟颠覆了什么?

  ——打破“越强越贵”的成本诅咒

  DeepSeek-R1的API服务定价极为亲民,每百万输入tokens仅需1元(缓存命中)/4元(缓存未命中),每百万输出tokens也仅为16元。相比之下,o1模型的对应服务定价则高达55元、110元和438元。AI投资机构Menlo Ventures的负责人Deedy在对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1不仅更便宜,而且上下文更长、推理性能更佳。这种低成本却能比肩o1模型的表现,让硅谷的“烧钱模式”受到了前所未有的质疑。

  在过去,大模型服务一直遵循着“一分钱一分货”的原则,高性能往往意味着高昂的费用。然而,DeepSeek打破了这一常规。

  ——超越“性能-成本-速度”的不可能三角

  当硅谷还在为GPU万卡集群投入千亿资金时,DeepSeek用557.6万美元的预算证明了:AI大模型的竞争并不只靠规模,更重要的是实际效果。DeepSeek-V3模型的训练成本仅为557.6万美元,使用的是算力受限的英伟达H800 GPU集群。相比之下,Meta旗下的Llama-3.1模型训练成本超过6000万美元,而OpenAI的GPT-4o模型训练成本更是高达1亿美元,且使用的是性能更优异的英伟达H100 GPU集群。此外,DeepSeek在使用过程中的反馈时长也大多控制在5秒至35秒之间,成功压缩了计算时间,降低了延迟。

  ——走出“参数膨胀”的陷阱

  在ChatGPT问世后的700多天里,全球人工智能巨头纷纷走上了“大力出奇迹”的路线,参数越炼越大,给算力、数据和能耗带来了巨大压力。然而,DeepSeek却选择了另一条路:不盲目追求参数之大,而是通过探索更高效的训练方法来实现性能提升。例如,DeepSeek-R1(4B参数)在数学推理、代码生成等任务上具有比肩70B参数模型(如Llama-2)的能力。

  实现三大跃升,展现中国力量

  “DeepSeek的出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。”面壁智能首席科学家刘知远表示,“中国与美国在AI领域的差距正在缩小。”

  DeepSeek在技术架构、数据策略、工程实践三方面的关键突破,是其算力封锁下有力破局的关键。

  ——技术架构:重新定义参数效率

  DeepSeek创新的架构将传统的串行高速路转变为辐射状的快递分拣中心,提高了速度并节约了能耗。

  ——数据策略:质量驱动的成本控制

  DeepSeek采用的数据蒸馏技术,有针对性地筛选掉低质量数据,提高了训练效率并降低了成本。

  ——工程实践:架起“超级工厂”流水线

  DeepSeek的3D并行技术相当于通过流水线并行和张量并行,实现了大模型训练的高效工业化。

  超越技术的启示,引领未来创新

  DeepSeek的成功不仅在于技术创新和成本革命,更在于其超越技术的启示。DeepSeek的目标并非利润而是使命,其愿景是“探索未至之境”。这种愿景与其极简且清爽的组织架构相匹配,使得DeepSeek能够很好地弥补大厂、高校、传统科研机构在创新上的结构性局限。

  DeepSeek的V3模型关键训练架构MLA源于一位年轻研究员的个人兴趣,经过研判后公司组建了专项团队开展大规模验证与攻关。R1模型果断调整强化学习路线,领先于其他机构实现了近似o1的推理能力。这些成功的背后,是DeepSeek青年团队对前沿技术的敏锐嗅觉与大胆尝试。

  “我们创新缺少的不是资本,而是信心以及组织高密度人才的能力。”DeepSeek创始人梁文锋表示,“中国要逐步成为贡献者,而不是一直‘搭便车’。”

  DeepSeek的开源路线也赢得了广泛赞誉。将代码、模型权重和训练日志全部公开,不仅需要格局更需要勇气与实力。梁文锋解释称:“在颠覆性技术面前,闭源形成的护城河是短暂的。开源、发论文并不会失去什么,反而能让技术人员更有成就感。”

  北京时间2月1日凌晨,OpenAI发布了其推理系列最新模型o3-mini,其中出现了“Deep research”的字眼。这是否是国产之光“被follow”的开端尚难断言,但DeepSeek已经走出了一条具有自主创新基因的制胜之道。

  正如梁文锋此前所说:“中国要逐步成为贡献者。”DeepSeek正以实际行动践行这一愿景,为全球AI领域的发展贡献着中国智慧和力量。

(图片来源:网络;文章来源:经济参考报)