AI导读:

DeepSeek-V3以低廉的训练成本和卓越的性能震撼AI行业,标志着AI正式进入分布式推理时代。随着AI应用的崛起,推理算力需求不断攀升,未来AI芯片需求或将大幅增加。

日前,AI行业迎来重大突破,深度求索DeepSeek-V3横空出世,震撼业界。该模型参数量高达671B,但在预训练阶段仅使用2048块GPU训练了2个月,且成本仅为557.6万美元,这一低廉的成本引发了广泛关注。与此同时,DeepSeek-V3的性能却足以比肩甚至超越其他前沿大模型。

DeepSeek-V3之所以能够实现如此高效的训练,主要得益于其采用的多头潜在注意力(MLA)和DeepSeekMoE技术。研发团队还证明了多Token预测目标(MTP)有利于提高模型性能,可用于推理加速的推测解码。此外,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中蒸馏到标准模型上,显著提高了推理性能,同时保持了输出风格和长度控制。

有观点认为,DeepSeek-V3极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降,A股算力概念股也因此在27日出现下跌。然而,也有观点认为,虽然DeepSeek表现优秀,但其统计口径仅计算了预训练阶段,数据的配比需要做大量预实验,合成数据的生成和清洗也需要消耗算力。因此,训练上的降本增效并不代表算力需求会下降,而是意味着大厂可以用性价比更高的方式去探索模型的极限能力。

Lepton AI创始人兼CEO贾扬清在谈及DeepSeek-V3时指出,我们正式进入了分布式推理时代。他强调,一台单GPU机器(80×8=640G)的显存已经无法容纳所有参数,需要分布式推理来保证性能和未来扩展。中信证券研报也指出,DeepSeek-V3的发布引起了AI业内的广泛关注,其在保证模型能力的前提下,训练效率和推理速度大幅提升,意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地。

OpenAI联合创始人兼前首席科学家Ilya Sutskever曾断言,AI预训练时代将终结。多位AI投资人、创始人和CEO们也表示,AI的Scaling Law定律的收益正在逐步衰减。包括a16z合伙人Anjney Midha、微软CEO Satya Nadella在内,AI行业CEO、研究人员和投资人们已经发出了新的判断:我们正处于一个新的Scaling Law时代——测试时间计算时代,即推理时代。这项能力让AI模型在回答问题之前能有更多时间和算力来思考,特别有希望成为下一件大事。

AI应用的崛起也呼唤着推理算力的提升。英伟达竞争对手、AI芯片制造商Cerebras曾解释,快速推理是解锁下一代AI应用的关键。从语音到视频,有了快速推理之后,以前无法实现的响应式智能应用程序将成为可能。以豆包为例,民生证券指出,豆包大模型应用场景的不断拓展使得对推理算力的需求不断攀升,主要集中在硬件设备算力需求、数据中心规模扩张需求、通信网络需求三方面。

分析师根据豆包的月活、日活以及日均token调用量为基础,做出保守、中性、乐观三种假设,预计豆包大模型或将带来759、1139、1898亿元的AI服务器资本开支需求。随着AI应用显著带动算力建设,分析师指出,字节算力资本开支持续攀升。此外,小米也在着手搭建自己的GPU万卡集群,对AI大模型进行大力投入。海外科技巨头也在大手笔加大资本开支,据摩根士丹利预估,海外四大科技巨头在2025年的资本开支可能高达3000亿美元。

Bloomberg Intelligence的报告指出,企业客户可能会在2025年进行更大规模的AI投资,而AI支出增长将更侧重于推理侧,以实现投资变现或提升生产力。随着端侧AI放量,豆包、ChatGPT等AI应用快速发展,多家券商研报指出,算力需求会加速从预训练向推理侧倾斜,推理有望接力训练,成为下一阶段算力需求的主要驱动力。a16z合伙人Anjney Midha表示,如果推理计算成为扩展AI模型性能的下一个领域,那么对专门用于高速推理的AI芯片的需求可能会大幅增加。