DeepSeek引领AI新潮流,中国大模型行业迎来“DeepSeek效应”
AI导读:
DeepSeek在基座大模型上做出突破,引发舆论震动。其发布的R1模型获得高度赞赏,显著降低大模型开发成本,实现高效低价。DeepSeek的成功为中国AI初创企业带来“DeepSeek效应”,预计将在2-3年内解决算力卡脖子问题,实现中美公平竞争。
国产大模型公司深度求索(DeepSeek)在基座大模型上的突破,被多位业内人士誉为“天才级别”的成就,让这个春节充满了“AI味”。DeepSeek旗下的标志性大模型DeepSeek-R1,以其卓越的性能和创新的技术,赢得了广泛赞誉。
1月28日,大洋彼岸的人工智能巨头Open AI的CEO山姆·奥特曼(Sam Altman)对DeepSeek带来的挑战作出了回应,他表示,DeepSeek推出的R1令人印象深刻,新的竞争对手令人振奋,Open AI当然会推出更好的模型。
国内某Top2 AI初创企业也坦言感受到了同行带来的压力,他们表示将加快产品研发进度。与此同时,DeepSeek在产品上的快速迭代也令人瞩目。除夕当天,DeepSeek悄无声息地发布了开源多模态模型Janus-Pro。此前,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,甚至超越了ChatGPT在美区的下载榜排名。
360创始人周鸿祎对DeepSeek的多模态大模型表示赞赏,他认为DeepSeek在此刻发布多模态大模型,一定有自己的信心和底气。他还表示,中国大模型技术“复仇者联盟”战队里一定有DeepSeek的一份,因为这家公司和它的创始人非常低调,他们的技术能力和未来前景被市场严重低估了。现在硅谷都把DeepSeek叫做来自东方的神秘力量,中国AI公司的创造力已经势不可挡。
AI军备竞赛已进入深水期,DeepSeek在字节、阿里、腾讯等大厂的包围下脱颖而出,成为杀出重围的黑马。DeepSeek走红的秘密是什么?它为国内大模型行业带来了哪些启示?
DeepSeek之所以优秀,首先在于其对商业化的不感兴趣,只专注于技术研究。这样的高度一般人难以达到。据了解,DeepSeek的科研氛围浓厚,是一个真正做事的团队。尽管薪资水平只是业内中流,但人才密度并不低。大厂的聪明人往往因为内部斗争等原因,无法真正专心做事,而DeepSeek这样的技术公司则更加纯粹。
DeepSeek早在之前就已有多项成就引发行业关注。2024年,DeepSeek在大模型行业率先发起价格战,虽然当时并未引起外界广泛关注,但此后智谱、字节跳动等跟进,才引发整个行业的降价潮流。DeepSeek最引人瞩目的成就,是其显著降低了大模型开发成本。其发布的推理模型R1的API服务定价极低,约等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。因此,DeepSeek也被戏称为AI界的“拼多多”。
DeepSeek实现高效低价的原因主要得益于DS-V3的多项技术创新。首先,DeepSeek采用MoE架构(Mixture of Experts,混合专家模型),通过将大模型变成多个稀疏的专家小模型,并通过多个模型聚合来达到和传统大模型相当的能力,有效降低了计算成本。其次,DS-V3在训练方法上进行了重要创新,采用FP8混合精度训练,效率是常规BF16精度的约1.6倍;同时优化了并行流水线,提升了训练和推理效率。这些优化使得V3的训练成本降至约550万美元。
在最新发布的DS-R1中,DeepSeek采用了创新性的GRPO(组相关策略优化)强化学习方法,无需庞大的人类标注数据库。通过让模型自主生成并验证结果的方式,R1展现出了强大的推理能力。随着训练步数增加,其思维链(Chain-of-Thought,CoT)的长度不断增长,模型甚至开始在推理过程中进行自我反思。DeepSeek R1的成功意味着,如果基础模型能力够强,在强化学习过程中它就能自己学会推理。
《麻省理工科技评论》分析称,DeepSeek R1采用类似ChatGPT o1使用的“思维链”方法,可以通过逐步处理查询来解决问题。这可能是美国对华高端AI芯片出口管制带来的意外结果,迫使中国的初创企业“优先考虑效率”。DeepSeek自己认为,其R1模型相比OpenAI的创新点可能在“注意力机制”和“参数效率”。在处理长文本时,R1更聚焦关键部分,减少计算量;在参数效率方面,用类似MoE的结构,把模型分成多个“子专家”,不同任务激活不同部分,既节省算力又提升效果。
DeepSeek的成功离不开其创始人梁文锋。这位朴素、低调的“85后”企业家,凭借在数学领域的天赋和兴趣,以及对AI的热爱和好奇心,带领DeepSeek取得了今天的成就。梁文锋认为,中国AI的发展需要整个技术社区和产业的共同努力,需要有人站到技术的前沿。他早在之前就确立了以AI为公司的主要发展方向,并投入巨资建设AI超级计算机,为DeepSeek的发展奠定了坚实的基础。
DeepSeek在国际范围内的成功也为中国AI初创企业带来了“DeepSeek效应”。多家国内AI初创企业表示将加快产品研发进度,提升技术实力。资深AI从业者认为,DeepSeek的成功说明中国人工智能企业已进入世界第一梯队,2025年中国在AI领域的创新相当值得期待。尽管中美在人工智能上仍有原创性的差距,但DeepSeek的表现确实令人瞩目。
然而,要谈中国在AI上的能力完全赶超美国,还为时尚早。但是DeepSeek的表现确实说明中国AI在发展空间上令人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量,在AI领域具有巨大的优势。但是,要解决算力卡脖子问题,还需要一定的时间。预计将在2-3年内彻底解决这个问题,届时将能看到两个国家真正实现公平竞争。
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。