AI导读:

DeepSeek AI大模型成功发布,算力成本大幅降低,引发业内震动。DeepSeek-R1在国际大模型排名中名列前茅,端侧应用前景广阔,有望推动AI应用的爆发。

正如众人难以预见,原本专注于游戏显卡的英伟达最终会成为AI领域的佼佼者一样,中国AI大模型的未来也可能隐藏在那些涉足股市的公司之中。一名金融科技领域的资深人士如是说道。

近日,国内AI初创企业DeepSeek遭遇了短暂的服务中断,据其官方回应,此次“宕机”事件是由于新模型DeepSeek-R1发布后,用户访问量急剧增加所致。

DeepSeek由知名私募巨头幻方量化于2023年4月创立,近日正式推出了推理大模型DeepSeek-R1。在国际大模型排名Arena上,DeepSeek-R1的基准测试成绩已跃升至全类别大模型的第三位,且在风格控制类模型(StyleCtrl)分类中与OpenAI的GPT-4并列榜首。

1月27日,DeepSeek应用在苹果美国地区应用商店免费APP下载排行榜上登顶,超越了ChatGPT。同日,在中国区应用商店免费榜上,DeepSeek同样占据榜首位置。

DeepSeek AI已经具备了思考能力,这标志着AI技术的一次质的飞跃。武汉大学计算机学院教授、中国人工智能学会心智计算专委会副主任委员蔡恒进对DeepSeek给予了高度评价,认为其在思考和推理方面的稳定性与可靠性有了显著提升。

DeepSeek的崛起在业内引起了巨大震动,同时,以科技股为主的纳斯达克100指数期货跌幅达到3%,市场担忧DeepSeek的AI模型可能会对科技行业造成冲击。

市场分析指出,DeepSeek R1的成功可能降低了市场对英伟达AI芯片需求的预期。因为DeepSeek似乎以极低的成本构建了一个具有突破性的人工智能模型,且无需使用顶尖芯片。这引发了人们对数千亿美元AI芯片支出的实际效用的质疑。

有消息称,DeepSeek仅用2048颗英伟达H800 GPU和约550万美元,就训练出了参数量达6710亿的开源大模型,这一成本仅为Llama-3 405B训练成本的十分之一不到。然而,《科创板日报》记者了解到,550万美元只是DeepSeek-V3训练成本的一部分,并不包括前期研究、消融实验等与架构、算法、数据相关的成本。实际上,DeepSeek R1的真实算力成本投入远超600万美元。

多位业内人士认为,OpenAI与DeepSeek在算力需求上并不在同一量级。创新和探索必然伴随着算力和各项成本的浪费,在确定性的路径上优化所付出的代价,与探索未知所付出的代价之间不宜简单对比。然而,DeepSeek大模型的推出无疑展示了模型架构在算法和数据层面创新的价值。

曾几何时,OpenAI的火爆源于“大力出奇迹”的理念,即算力越大、数据越多,就能得到越强的大模型。然而,这种“军备竞赛”型的开发模式带来了惊人的能源消耗和训练成本。据预测,OpenAI在2024年的亏损额可能达到50亿美元,到2026年将进一步攀升至140亿美元。

“DeepSeek则带来了对算力/能耗需求的十余倍降低。”蔡恒进强调。

魔形智能创始人徐凌杰向《科创板日报》介绍,DeepSeek巧妙运用了多种优化手段来降低成本,包括采用低精度数据格式进行训练、复用和共享参数以及通过MoE混合专家的架构动态激活部分参数等。

除了降低AI大模型的硬件门槛和能源消耗外,DeepSeek的成功更为重要的是为AI未来的应用落地铺平了道路。随着模型性能的逐步稳定和应用场景的陆续拓展,未来算力的推理需求将超过训练需求。Arm基础设施事业部产品解决方案副总裁Dermot ODriscoll在接受《科创板日报》采访时表示,接下来将看到更多关于AI推理领域的突破,即AI的实际应用。这些创新将从数据中心延伸到边缘计算,再进一步扩展至终端设备。因此,下一轮创新的重点将从AI训练转向AI推理。

历史数据表明,10倍成本下降可激发百倍需求。当前模型推理成本已进入快速下降通道,或将推动AI应用的爆发。徐凌杰表示,针对-V3模型(参数量6710亿),其推理采用了创新的两阶段架构:32张H800 GPU并行处理预填充任务,320张H800集群加速流式解码。为追求极致性价比,需将数百GPU通过超高速网络组成“超节点”,这一需求正推动智算中心集群化的演进,加速AI算力基础设施升级。

目前,DeepSeek模型的端侧落地工作已在推进中。AMD宣布将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型经过SGLang强化,针对AI推理进行了优化。英特尔中国区技术部总经理高宇也表示,Deepseek-R1已经在AI PC上成功运行。Flowy大模型AI PC应用平台现已支持在Intel Core Ultra AI PC上运行Deepseek-R1。

端侧大模型正在智能手机、智能汽车、PC等多种设备上崭露头角。然而,硬件资源限制、模型压缩等多重挑战始终困扰着端侧大模型的发展。Deepseek R1端侧大模型的推出,有望为下游应用的繁荣带来更大空间,推动更多推理芯片的涌现以及大模型应用生态的发展。

DeepSeek相关图片

(文章来源:科创板日报,部分图片来源于网络)