AI导读:

DeepSeek以低成本、高效率的算法打破了算力神话,推出性能卓越的开源大模型R1和V3,震撼硅谷与华尔街,引发国际AI界广泛关注。其创新路径为中国AI企业探索出了一条实用主义的新路子。

21世纪经济报道记者 孔海丽 北京报道

一支源自“中国”的神秘力量,正不断震撼硅谷与华尔街,凭借其创新的算法打破了算力神话,重新定义了AI领域的叙事格局。

当地时间1月27日,美股芯片板块经历了一场大幅波动,其中英伟达股价暴跌16.86%,创下市值蒸发的新纪录;博通股价同样大幅下跌超过17%,而甲骨文则下跌近14%,纳斯达克指数整体下挫3.07%。这一系列的调整,被众多投资者归因于DeepSeek的强势崛起。这家总部位于杭州的人工智能公司,最近推出了最新的开源大模型R1,其性能直逼OpenAI的大模型GPT-4。

不仅如此,DeepSeek在去年12月推出的大模型DeepSeek-V3,在多项测试中的性能也直追Anthropic的Claude-3.5和OpenAI的GPT-4,甚至在部分项目中实现了超越。而就在人们普遍认为DeepSeek将专注于语言大模型,暂时放弃多模态模型之际,该公司于1月28日又发布了一款名为Janus-Pro的多模态大模型,该模型在图像生成基准测试中成功超越了OpenAI的DALL-E3。

硅谷对DeepSeek的开源大模型感到震惊的是,这些模型在更低成本、更短时间、更少算力的情况下,实现了卓越的性能。V3和R1的训练成本均控制在约550万美元,仅为Anthropic和OpenAI同类模型成本的十分之一。

1月27日,DeepSeek应用在苹果中国地区和美国地区的应用商店免费App下载排行榜上登顶,超越了ChatGPT,创造了业界奇迹。

美国总统特朗普在当地时间27日于佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的崛起应为美国企业敲响“警钟”。他同时表示,“这可能是非常积极的发展。因此,美国企业应考虑投入更少的资源,或许能得出同样的解决方案。”

国际人工智能领域的巨头们如何看待这一奇迹?微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在世界经济论坛上谈到DeepSeek时表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地构建了一个开源模型,能够在推理计算时高效运行,而且在计算效率方面表现出色。我们必须非常认真地对待中国在AI领域的进步。”

创立于2022年的Perplexity,估值高达90亿美元,是仅次于Anthropic和OpenAI等第一梯队的人工智能新创企业。近日,Perplexity首席执行官Aravind Srinivas(阿拉温德·斯里尼瓦斯)在一次访谈中分享了对DeepSeek的看法。斯里尼瓦斯认为,需求是发明之母。由于硬件资源条件受限,中国企业不得不寻找变通方案,最终,“DeepSeek以更高效、更低成本的方式开发了类似Anthropic和OpenAI的技术。这确实让人感到压力”。他进一步指出,如果说Meta正在赶上OpenAI或Anthropic,那么同样的说法也可以用于中国赶上美国。

然而,在为DeepSeek的成就感到自豪的同时,我们也需要对世界人工智能永不停歇的发展势头保持客观理性的认识,不可盲目自满。记者近期采访了多位国内专家、相关从业人员及投资者,关于DeepSeek现象,他们达成了以下共识:

首先,V3和R1的重大突破,并不能证明算力不重要。近几年,以OpenAI为代表的美国人工智能发展是建立在更强的算力、更大的参数、更高的成本之上。这种发展模式在某种程度上被称为人工智能的“硅谷叙事”。而中国企业由于无法获得高性能芯片和足够的资金,只能在底层算力基础上进行架构、算法和数据利用方面的探索,走出了一条高效率、低成本的实用主义路子。

事实上,浙江大学计算机博士、美国南加州大学访问学者傅聪指出,在“后训练”过程中,通过学习CoT(思维链)的方式,一步一步推理得出结果,而不是直接预测答案。这一方案也是行业内对OpenAI GPT-4模型实现路径的猜测,而DeepSeek用极快的速度验证了这一路径的可行性。

值得一提的是,DeepSeek创始人梁文锋透露,该公司此前已储备了万张A100芯片等。这比一般初创公司要强得多。只不过,在开发V3和R1时,由于效率高,他们没有使用那么多算力。

其次,英伟达等芯片股的调整,主要是市场风险的释放,与DeepSeek的重大突破之间,逻辑上没有必然联系。以英伟达为代表的人工智能板块已持续上涨几年,虽然中间偶有波动,但调整并不充分。英伟达PE长期横移在40倍上方,1月17日收盘后仍有45倍。而1月17日纳斯达克芯片股的大跌,更多是在高估值风险预期之下市场情绪的释放。DeepSeek只是提供或触发了风险释放的媒介。目前没有证据表明,全球算力尤其是高端算力资源已经过剩。更大的可能是,如果2025年打开了人工智能应用的空间,算力需求也会随之增加。而DeepSeek这样高效率利用算力的方式,将会被更多企业借鉴。AI硬件仍有很大的增长空间,算力叙事并未过时。

当地时间1月27日,英伟达发表声明表示,DeepSeek所取得的进展显示出其芯片在中国市场的实用价值,且未来为满足DeepSeek的服务需求,将需要更多英伟达芯片。

最后,DeepSeek的崛起展现出中国企业在创新能力上的显著增强。梁文锋去年7月在接受媒体采访时提到,硅谷习惯于将中国AI公司视为跟随者,但当一个中国公司以创新贡献者的身份加入到他们的竞争中时,且表现出色,他们就会感到震惊。DeepSeek在大模型开发路径上扮演了创新者的角色,探索出了一条低成本、少算力的高效集成之路。

作为追赶者,中国AI企业拥有后发优势。在1月26日由拾象创始人兼CEO李广密组织的关于DeepSeek的闭门讨论会上,专家提出,AI类似阶跃函数,现在做追赶者的算力需求少了10倍。虽然追赶者的算力成本一直不太高,但探索者仍需训练大量模型。而后发者可以聪明地进行创新。例如,大模型开发需要庞大的数据集,而数据标注的精确度对模型性能有着重要影响。DeepSeek非常重视数据标注,梁文锋甚至会亲自参与打标签工作,这大大提高了数据的精确度。此外,DeepSeek还善于做数据蒸馏(优化筛选),当然如果是开发通用大模型就不能做数据蒸馏。这些都是该公司Post-training更高效率的体现。

DeepSeek给国内同行的启示还包括,大模型开发在降低成本的同时,也可以探索智能的边界,在Transformer之外寻找其他架构的可能性。在产品层面,AI agent在未获得大规模应用之前,存在巨大的探索空间和多领域商用的机会。特别是在多模态方面,今年可能会出现能够挑战ChatGPT形态的产品。

硅谷一位华裔资深AI工程师对21世纪经济报道记者表示,DeepSeek以低成本、高效率开发了几款了不起的产品,探索出了一条全新的路径,令国际同行刮目相看。但我们在自豪之余,也要客观认识到,DeepSeek等中国AI新创企业目前还不具备全面挑战OpenAI、Anthropic这些巨头的实力。人工智能的竞争才刚刚开始,未来充满无限可能。

DeepSeek AI Model