AI导读:

DeepSeek发布首个开源项目FlashMLA,该技术专为英伟达GPU设计,旨在解决AI大模型推理过程中的显存容量不足问题。FlashMLA通过算法创新大幅降低显存消耗,已有多家国内算力芯片公司完成适配工作,或推动AI大模型效率革命。

2月24日上午,Deepseek(深度求索)发布首个开源项目FlashMLA。FlashMLA专为Hopper GPU(英伟达图形处理器架构)设计,是一种高效MLA(多头潜注意力)解码内核,特别优化了可变长度序列服务。在H800芯片上,它能实现每秒处理3000GB数据,每秒执行580万亿次浮点运算。

业内有观点认为,显存是目前限制DeepSeek推理的主要瓶颈,而FlashMLA通过“以算代存”技术,有望解决推理过程中显存容量不足的问题。然而,PPIO派欧云联合创始人兼CTO王闻宇表示,该观点不完全正确。FlashMLA在基础算法上创新,将KV权重矩阵转换到潜空间,实现矩阵大幅压缩而不损失精度,从而大幅降低数据存储开销,提升训练和推理速度。

显存容量已成为部署DeepSeek模型的重要门槛。根据民生证券研报,DeepSeek-R1实时推理版本拥有15B参数,显存需求约为30GB(FP16精度),而DeepSeek 67B大型模型则需要约140GB显存。对于“满血版”DeepSeek R1,其显存需求更是高达1.4TB(FP16精度)。

王闻宇指出,显存容量是门槛,但并非瓶颈。他强调,参数量较小的蒸馏模型在性能上远弱于满血版,选择模型需根据实际应用场景。同时,一位算力芯片厂商高管表示,AI行业从业者需围绕提高价值、保持用户体验、降低使用成本三个目标螺旋式上升。

图片来源:受访对象提供

FlashMLA技术在大模型规模变大、能力变强后,实现了在不降低用户体验的基础上降低成本。传统计算方式存在KV矩阵重复计算问题,导致显存消耗过大。而FlashMLA通过独特算法设计,减少了对KV矩阵的重复计算,大大降低了显存消耗。

值得注意的是,目前FlashMLA适配的是英伟达Hopper架构GPU。若该技术能在CUDA生态中大幅减少对显存的占用,未来或有助于降低国内算力芯片领域的推理成本。沐曦等国内算力芯片公司已迅速响应FlashMLA开源,完成适配工作。

PPIO派欧云王闻宇认为,FlashMLA对国内算力芯片具有很大借鉴价值。通过技术创新,将FlashMLA移植到国内算力芯片上,也可实现类似CUDA中的减少显存占用和加速效果。此外,从芯片设计角度出发,通过定制化的芯片来增加显存也是解决显存问题的一种方法。

中金研报指出,MoE结构可能对算力硬件需求带来变化,进一步推动处理器架构定制化需求,如更大的计算单元、更高效的通信kernel相匹配的设计单元等。

(文章来源:每日经济新闻)