AI导读:

杭州一群平均年龄不足26岁的青年团队推出的DeepSeek应用,以低成本高效能挑战硅谷AI巨头,上架不足半个月便力压ChatGPT登顶苹果应用商店排行榜。其独特的强化学习训练模式和开源性质,为AI领域带来了新的发展机遇。

当硅谷巨头仍在为构建GPU万卡集群不惜斥资千亿之际,杭州一群平均年龄不足26岁的青年团队,仅凭557.6万美元的预算,就向世界展示了AI大模型竞争的全新维度——效率至上。他们推出的DeepSeek应用,上架不足半个月便力压ChatGPT,于1月27日荣登苹果应用商店排行榜榜首。

近日,AI界的风头被杭州AI公司深度求索旗下的DeepSeek抢占。自去年12月26日发布DeepSeek-V3,到1月20日推出DeepSeek-R1,该公司以OpenAI三十分之一的API价格,实现了在多项测试中与OpenAI的o1模型持平甚至超越的表现,给美国AI界带来了“中国大模型花小钱办大事”的震撼。

新京报贝壳财经记者实测发现,DeepSeek-R1的“深度思考”模式能够逐步推理,生成逻辑清晰的回答,并展示思考过程。这一创新不仅吸引了普通用户,更让AI从业者深感震撼。IT从业者刘鸿博表示,DeepSeek在高语境内容和中文网络梗的理解上表现卓越,内容质量直逼脱口秀文本。

DeepSeek的低成本高效能模式,直接挑战了硅谷“烧钱模式”的传统观念。知名文生图大模型Stable Diffusion创始人Emad对硅谷同行发出“灵魂拷问”,质疑高额投入却未能超越DeepSeek的实验室。DeepSeek的崛起,让美国AI大模型公司构建的“护城河”面临崩塌风险,用户开始“用脚投票”。

1月27日,DeepSeek在苹果App Store美国区免费应用下载榜超越ChatGPT,登顶榜首,中国区同样如此,英国区则紧随其后,排名第二。DeepSeek的出圈效应由国外用户发起,社交平台上的用户心得分享,进一步推动了其全球知名度的提升。

根据DeepSeek官方公布的性能测试,该大模型在数学、编程等多个领域与o1模型表现相当,部分测试分数甚至超越o1。贝壳财经记者的实测也验证了DeepSeek在普通问答中的出色表现,尤其是其“深度思考”模式,让用户清晰了解其思考路径。

DeepSeek-R1模型技术报告来源:DeepSeek官网

DeepSeek的训练成本远低于同行。其DeepSeek-V3模型的训练成本仅为557.6万美元,使用的是算力受限的英伟达H800 GPU集群。相比之下,Meta旗下Llama3.1 405B模型的训练成本超过6000万美元,OpenAI的GPT-4o模型更是高达1亿美元,且使用的是性能更优的英伟达H100 GPU集群。DeepSeek-R1的API价格同样亲民,远低于OpenAI的定价。

DeepSeek技术文档截图来源:DeepSeek官网

DeepSeek的崛起,不仅因为其价格优势,更在于其比肩o1的性能。AI投资机构Menlo Ventures负责人Deedy、Meta工程师、Scale AI创始人等多位业界人士对DeepSeek给予了高度评价,认为其“低成本、高效率”的研发模式可能颠覆硅谷巨头的高投入路径。DeepSeek的兴起,对销售或购买大量GPU的公司构成了挑战,英伟达股价因此大幅波动。

在C端应用上,DeepSeek同样表现出色。贝壳财经记者的实测显示,DeepSeek在联网搜索功能方面能够迅速整合信息,排除错误答案,展现清晰的思考过程。用户在与DeepSeek的对话中,也能感受到其对中国古代文化的深入了解,以及思考问题的专业性。

贝壳财经记者向DeepSeek提问时,DeepSeek的思考过程。 来源:DeepSeek App截图

DeepSeek的创新之处在于其独特的AI训练模式。DeepSeek-R1-Zero通过单纯的强化学习训练实现推理能力,无需监督微调,打破了传统依赖预设思维链的范式。这一创新不仅大幅减少了计算资源需求,更让模型学会了思考乃至“顿悟”。在处理复杂数学问题时,DeepSeek-R1-Zero甚至能够停下来说“等等,这是个值得我记录的‘啊哈’时刻”,然后重新审视解题过程。

DeepSeek技术文档截图,图中红字为大模型自发的感慨:“等等、等等、等等,这是一个值得我记录的时刻”。来源:DeepSeek官网

DeepSeek的开源性质,更是为AI领域带来了新的发展机遇。其允许用户利用模型输出、通过模型蒸馏等方式训练其他模型,进一步促进了技术的开源和共享。国外的开发者论坛上,甚至有人发起了“将DeepSeek模型装进个人电脑”的挑战。

DeepSeek团队由清华大学、北京大学应届生和实习生主导,平均年龄低、创新能力强。其MLA(多头潜在注意力)架构的灵感源自一名博士生的“突发奇想”,而GRPO强化学习算法的突破则由3名实习生完成。这种“自下而上”的创新文化,与OpenAI早期如出一辙。

DeepSeek的崛起,不仅为中国AI领域赢得了国际声誉,更为全球AI发展带来了新的思考。如何在有限资源下实现极致高效利用,成为业界共同关注的焦点。