DeepSeek崛起：杭州青年团队以低成本挑战硅谷AI巨头

国内财经 2025-01-27 18:16:49 来源：新京报作者：网络

AI导读：

杭州一群平均年龄不足26岁的青年团队推出的DeepSeek应用，以低成本高效能挑战硅谷AI巨头，上架不足半个月便力压ChatGPT登顶苹果应用商店排行榜。其独特的强化学习训练模式和开源性质，为AI领域带来了新的发展机遇。

当硅谷巨头仍在为构建GPU万卡集群不惜斥资千亿之际，杭州一群平均年龄不足26岁的青年团队，仅凭557.6万美元的预算，就向世界展示了AI大模型竞争的全新维度——效率至上。他们推出的DeepSeek应用，上架不足半个月便力压ChatGPT，于1月27日荣登苹果应用商店排行榜榜首。

近日，AI界的风头被杭州AI公司深度求索旗下的DeepSeek抢占。自去年12月26日发布DeepSeek-V3，到1月20日推出DeepSeek-R1，该公司以OpenAI三十分之一的API价格，实现了在多项测试中与OpenAI的o1模型持平甚至超越的表现，给美国AI界带来了“中国大模型花小钱办大事”的震撼。

新京报贝壳财经记者实测发现，DeepSeek-R1的“深度思考”模式能够逐步推理，生成逻辑清晰的回答，并展示思考过程。这一创新不仅吸引了普通用户，更让AI从业者深感震撼。IT从业者刘鸿博表示，DeepSeek在高语境内容和中文网络梗的理解上表现卓越，内容质量直逼脱口秀文本。

DeepSeek的低成本高效能模式，直接挑战了硅谷“烧钱模式”的传统观念。知名文生图大模型Stable Diffusion创始人Emad对硅谷同行发出“灵魂拷问”，质疑高额投入却未能超越DeepSeek的实验室。DeepSeek的崛起，让美国AI大模型公司构建的“护城河”面临崩塌风险，用户开始“用脚投票”。

1月27日，DeepSeek在苹果App Store美国区免费应用下载榜超越ChatGPT，登顶榜首，中国区同样如此，英国区则紧随其后，排名第二。DeepSeek的出圈效应由国外用户发起，社交平台上的用户心得分享，进一步推动了其全球知名度的提升。

根据DeepSeek官方公布的性能测试，该大模型在数学、编程等多个领域与o1模型表现相当，部分测试分数甚至超越o1。贝壳财经记者的实测也验证了DeepSeek在普通问答中的出色表现，尤其是其“深度思考”模式，让用户清晰了解其思考路径。

DeepSeek-R1模型技术报告来源：DeepSeek官网

DeepSeek的训练成本远低于同行。其DeepSeek-V3模型的训练成本仅为557.6万美元，使用的是算力受限的英伟达H800 GPU集群。相比之下，Meta旗下Llama3.1 405B模型的训练成本超过6000万美元，OpenAI的GPT-4o模型更是高达1亿美元，且使用的是性能更优的英伟达H100 GPU集群。DeepSeek-R1的API价格同样亲民，远低于OpenAI的定价。

DeepSeek技术文档截图来源：DeepSeek官网

DeepSeek的崛起，不仅因为其价格优势，更在于其比肩o1的性能。AI投资机构Menlo Ventures负责人Deedy、Meta工程师、Scale AI创始人等多位业界人士对DeepSeek给予了高度评价，认为其“低成本、高效率”的研发模式可能颠覆硅谷巨头的高投入路径。DeepSeek的兴起，对销售或购买大量GPU的公司构成了挑战，英伟达股价因此大幅波动。

在C端应用上，DeepSeek同样表现出色。贝壳财经记者的实测显示，DeepSeek在联网搜索功能方面能够迅速整合信息，排除错误答案，展现清晰的思考过程。用户在与DeepSeek的对话中，也能感受到其对中国古代文化的深入了解，以及思考问题的专业性。

贝壳财经记者向DeepSeek提问时，DeepSeek的思考过程。来源：DeepSeek App截图

DeepSeek的创新之处在于其独特的AI训练模式。DeepSeek-R1-Zero通过单纯的强化学习训练实现推理能力，无需监督微调，打破了传统依赖预设思维链的范式。这一创新不仅大幅减少了计算资源需求，更让模型学会了思考乃至“顿悟”。在处理复杂数学问题时，DeepSeek-R1-Zero甚至能够停下来说“等等，这是个值得我记录的‘啊哈’时刻”，然后重新审视解题过程。

DeepSeek技术文档截图，图中红字为大模型自发的感慨：“等等、等等、等等，这是一个值得我记录的时刻”。来源：DeepSeek官网

DeepSeek的开源性质，更是为AI领域带来了新的发展机遇。其允许用户利用模型输出、通过模型蒸馏等方式训练其他模型，进一步促进了技术的开源和共享。国外的开发者论坛上，甚至有人发起了“将DeepSeek模型装进个人电脑”的挑战。

DeepSeek团队由清华大学、北京大学应届生和实习生主导，平均年龄低、创新能力强。其MLA（多头潜在注意力）架构的灵感源自一名博士生的“突发奇想”，而GRPO强化学习算法的突破则由3名实习生完成。这种“自下而上”的创新文化，与OpenAI早期如出一辙。

DeepSeek的崛起，不仅为中国AI领域赢得了国际声誉，更为全球AI发展带来了新的思考。如何在有限资源下实现极致高效利用，成为业界共同关注的焦点。

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。