AI导读:

中国AI初创公司DeepSeek凭借低成本算力训练AI模型引发硅谷巨头关注和华尔街波动,英伟达等半导体股暴跌,但英伟达不认同算力泡沫论,巨头AI基建资本开支持续升高。DeepSeek的创新技术为行业降低模型开发成本提供新思路。

中国AI初创公司DeepSeek近期在美国科技界掀起轩然大波,其创新成果不仅震惊了硅谷巨头,还引发了华尔街的广泛关注与讨论。

1月27日美股交易日,受多重因素影响,美股三大指数开盘齐跌。尽管随后市场有所回升,但收盘时道琼斯指数仍上涨0.65%,纳斯达克指数则下跌3.07%,标普500指数跌幅达1.46%。值得注意的是,DeepSeek凭借其“仅用不到十分之一的算力训练出可媲美硅谷巨头的AI模型”的成就,再度加剧了市场对“算力过剩”泡沫的担忧。在此背景下,算力相关的半导体股在美股暴跌中损失惨重,其中英伟达股价暴跌近17%,博通跌幅超过17%,台积电跌幅超过13%,阿斯麦也下跌超过5%。而硅谷科技巨头中,微软、谷歌和特斯拉股价均有所下跌,但苹果、Meta和亚马逊则呈现出上涨态势。

尽管市场并未直接将美股暴跌归咎于DeepSeek,但该公司引发的低成本算力浪潮无疑在中美科技界引发了热烈讨论。据美国匿名职场社区teamblind上的一位Meta员工爆料,DeepSeek发布V3模型后,Meta内部陷入恐慌。这款与Meta旗下的开源模型Llama-3.1性能相当的模型,其算力训练成本却不及后者的十分之一。这一巨大落差令Meta管理层难以向董事会解释巨额成本开支的合理性,公司内部已组建多个小组研究DeepSeek的技术细节。

作为算力市场的主要提供者,英伟达此次也未能幸免于难。其股价在短短一个交易日内暴跌16.86%,市值蒸发近6000亿美元,创下美股单日最大跌幅纪录。DeepSeek使用2048张英伟达H800 GPU就达到了竞争对手用16000张英伟达H100 GPU的模型训练效果,这一低成本模式引发了华尔街对科技公司未来是否还需持续大量购入英伟达AI芯片的担忧。同时,硅谷巨头前两年斥巨资建设的AI数据中心等基础设施是否已成为泡沫也成为业界关注的焦点。

然而,英伟达对此并不认同。据路透社1月28日报道,英伟达在股价暴跌后发表声明称,DeepSeek的进步反而证明了市场需要更多AI芯片。英伟达认为,DeepSeek主要在中国大陆算力资源受限的环境下,通过在模型推理阶段运用创新技术实现了低成本训练。而AI推理仍然需要大量英伟达GPU和高性能网络。此外,巨头用于AI基建的资本开支今年并未放缓,反而持续升高。Meta首席执行官马克·扎克伯格已宣布,Meta2025年资本支出将达到600亿-650亿美元,重点用于AI基建。微软、谷歌也已表态将继续增加资本支出。

尽管英伟达的市场地位难以撼动,但DeepSeek所引发的低成本算力浪潮确实给业界带来了冲击。DeepSeek团队通过采用模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术降低了成本。其中,FP8作为一种新兴的低精度训练方法,通过减少数据表示所需的位数,显著降低了内存占用和计算需求。DeepSeek团队在实践中充分利用FP8的优势,同时为了缓解FP8训练可能导致的不稳定情况,仅在模型一部分使用FP8,并对激活和权重进行了细致设计。这一创新思路为行业探索降低模型开发成本提供了新的方向。

目前,国内公司如零一万物以及国外的谷歌、Inflection AI等已将FP8技术引入模型训练与推理中。而国内GPU公司摩尔线程也表示,其GPU产品及夸娥万卡AI算力集群均已支持FP8技术。DeepSeek的创新成果无疑为AI行业的发展注入了新的活力。

(文章来源:界面新闻,经编辑整理)