DeepSeek引领AI新潮流，中国大模型行业迎来“DeepSeek效应”

财经聚焦 2025-01-29 07:59:48 来源：澎湃新闻作者：网络

AI导读：

DeepSeek在基座大模型上做出突破，引发舆论震动。其发布的R1模型获得高度赞赏，显著降低大模型开发成本，实现高效低价。DeepSeek的成功为中国AI初创企业带来“DeepSeek效应”，预计将在2-3年内解决算力卡脖子问题，实现中美公平竞争。

国产大模型公司深度求索（DeepSeek）在基座大模型上的突破，被多位业内人士誉为“天才级别”的成就，让这个春节充满了“AI味”。DeepSeek旗下的标志性大模型DeepSeek-R1，以其卓越的性能和创新的技术，赢得了广泛赞誉。

1月28日，大洋彼岸的人工智能巨头Open AI的CEO山姆·奥特曼(Sam Altman)对DeepSeek带来的挑战作出了回应，他表示，DeepSeek推出的R1令人印象深刻，新的竞争对手令人振奋，Open AI当然会推出更好的模型。

国内某Top2 AI初创企业也坦言感受到了同行带来的压力，他们表示将加快产品研发进度。与此同时，DeepSeek在产品上的快速迭代也令人瞩目。除夕当天，DeepSeek悄无声息地发布了开源多模态模型Janus-Pro。此前，DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，甚至超越了ChatGPT在美区的下载榜排名。

360创始人周鸿祎对DeepSeek的多模态大模型表示赞赏，他认为DeepSeek在此刻发布多模态大模型，一定有自己的信心和底气。他还表示，中国大模型技术“复仇者联盟”战队里一定有DeepSeek的一份，因为这家公司和它的创始人非常低调，他们的技术能力和未来前景被市场严重低估了。现在硅谷都把DeepSeek叫做来自东方的神秘力量，中国AI公司的创造力已经势不可挡。

AI军备竞赛已进入深水期，DeepSeek在字节、阿里、腾讯等大厂的包围下脱颖而出，成为杀出重围的黑马。DeepSeek走红的秘密是什么？它为国内大模型行业带来了哪些启示？

DeepSeek之所以优秀，首先在于其对商业化的不感兴趣，只专注于技术研究。这样的高度一般人难以达到。据了解，DeepSeek的科研氛围浓厚，是一个真正做事的团队。尽管薪资水平只是业内中流，但人才密度并不低。大厂的聪明人往往因为内部斗争等原因，无法真正专心做事，而DeepSeek这样的技术公司则更加纯粹。

DeepSeek早在之前就已有多项成就引发行业关注。2024年，DeepSeek在大模型行业率先发起价格战，虽然当时并未引起外界广泛关注，但此后智谱、字节跳动等跟进，才引发整个行业的降价潮流。DeepSeek最引人瞩目的成就，是其显著降低了大模型开发成本。其发布的推理模型R1的API服务定价极低，约等于Meta旗下Llama 3-70B的七分之一，GPT-4 Turbo的七十分之一。因此，DeepSeek也被戏称为AI界的“拼多多”。

DeepSeek实现高效低价的原因主要得益于DS-V3的多项技术创新。首先，DeepSeek采用MoE架构（Mixture of Experts，混合专家模型），通过将大模型变成多个稀疏的专家小模型，并通过多个模型聚合来达到和传统大模型相当的能力，有效降低了计算成本。其次，DS-V3在训练方法上进行了重要创新，采用FP8混合精度训练，效率是常规BF16精度的约1.6倍；同时优化了并行流水线，提升了训练和推理效率。这些优化使得V3的训练成本降至约550万美元。

在最新发布的DS-R1中，DeepSeek采用了创新性的GRPO（组相关策略优化）强化学习方法，无需庞大的人类标注数据库。通过让模型自主生成并验证结果的方式，R1展现出了强大的推理能力。随着训练步数增加，其思维链（Chain-of-Thought，CoT）的长度不断增长，模型甚至开始在推理过程中进行自我反思。DeepSeek R1的成功意味着，如果基础模型能力够强，在强化学习过程中它就能自己学会推理。

《麻省理工科技评论》分析称，DeepSeek R1采用类似ChatGPT o1使用的“思维链”方法，可以通过逐步处理查询来解决问题。这可能是美国对华高端AI芯片出口管制带来的意外结果，迫使中国的初创企业“优先考虑效率”。DeepSeek自己认为，其R1模型相比OpenAI的创新点可能在“注意力机制”和“参数效率”。在处理长文本时，R1更聚焦关键部分，减少计算量；在参数效率方面，用类似MoE的结构，把模型分成多个“子专家”，不同任务激活不同部分，既节省算力又提升效果。

DeepSeek的成功离不开其创始人梁文锋。这位朴素、低调的“85后”企业家，凭借在数学领域的天赋和兴趣，以及对AI的热爱和好奇心，带领DeepSeek取得了今天的成就。梁文锋认为，中国AI的发展需要整个技术社区和产业的共同努力，需要有人站到技术的前沿。他早在之前就确立了以AI为公司的主要发展方向，并投入巨资建设AI超级计算机，为DeepSeek的发展奠定了坚实的基础。

DeepSeek在国际范围内的成功也为中国AI初创企业带来了“DeepSeek效应”。多家国内AI初创企业表示将加快产品研发进度，提升技术实力。资深AI从业者认为，DeepSeek的成功说明中国人工智能企业已进入世界第一梯队，2025年中国在AI领域的创新相当值得期待。尽管中美在人工智能上仍有原创性的差距，但DeepSeek的表现确实令人瞩目。

然而，要谈中国在AI上的能力完全赶超美国，还为时尚早。但是DeepSeek的表现确实说明中国AI在发展空间上令人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量，在AI领域具有巨大的优势。但是，要解决算力卡脖子问题，还需要一定的时间。预计将在2-3年内彻底解决这个问题，届时将能看到两个国家真正实现公平竞争。

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。