DeepSeek开源周收官,AI大模型技术生态再升级
AI导读:
DeepSeek开源周正式收官,五天内发布了五个开源代码库,分别针对MLA解码、GPU效能提升、通用矩阵乘法加速等方面进行优化,旨在提高AI模型训练和推理效率。此外,GPT-4.5定价高昂,反响平平。DeepSeek掌握了一些核心能力,如模型训练深层次的know how和训练数据细节。
2月最后一天,Deepseek开源周正式收官。连续五天,这家公司在大模型开源生态中刷新了自己的技术地位。
五天内,DeepSeek发布了五个开源代码库,分别是FlashMLA、DeepEP、DeepGEMM、DualPipe和EPLB,这些项目还包括优化并行策略和推进器3FS及轻量化数据处理工具Smallpond。这些项目在Github上累计获得了近2.8万颗星星。
首日的FlashMLA最为引人注目。DeepSeek介绍称,这是一款面向Hopper GPU的高效MLA解码内核,针对可变长度序列的服务场景进行了优化。MLA——Multi-Head Latent Attention是DeepSeek的创新,FlashMLA则是针对MLA在解码阶段的注意力加速器。
用户输入的自然语言数据序列长短不一,传统注意力机制会造成算力资源浪费。FlashMLA可以针对不同token长度动态调配计算资源,持续压榨H800硬件性能利用效率。
次日的DeepEP旨在提升GPU效能。这是一个专为专家混合(MoE)和专家并行(EP)量身定制的通信库,通过全对全的中间系统,高效协同专家模型之间的通信,实现高吞吐量和低延迟的兼顾,并支持FP8等低精度操作以降低计算资源消耗。
第三天的DeepGEMM来自DeepSeek-V3,是一个可用于FP8精度的通用矩阵乘法(GEMM)加速库,旨在降低消耗、提升速度的同时保持计算准确度。它先利用FP8低精度快速计算,再利用CUDA核心精加工。
英伟达基于CUDA架构的CUTLASS也用于加速这类计算,但DeepGEMM更加轻量化,仅用300行代码实现,安装时无需编译,通过轻量级JIT模块在运行时编译所有内核。
第四天发布了DualPipe和EPLB构成的优化并行策略。DualPipe是一种双向并行算法,通过“双向”调度方式,在参数翻倍的情况下,大幅减少流水线并行过程中的等待时间。EPLB是一种“专家并行负载均衡器”,可对MoE架构中的高负载专家复制为“冗余专家”,以优化GPU之间的负载均衡。
最后一天,DeepSeek发布了3FS(Fire-Flyer File System)及数据处理框架Smallpond。3FS是一个分布式文件系统,可实现高速数据访问,提高AI模型训练和推理效率。Smallpond可进一步优化3FS的数据管理能力,能够处理PB级别数据。
DeepSeek开源周的所有内容几乎都是“开箱即用”,团队提供了操作指南。AI大模型行业人士表示,这五项开源内容对训练效率的优化都很重要,DeepEP对MoE的提升尤为明显。
一名关注大模型行业的投资人认为,这些内容展现了DeepSeek在AI Infra层的优异表现,并指出DeepSeek选择开源是为了让业界更好地部署和使用其开源模型,建立更大的开源生态。
对于DeepSeek与英伟达硬件生态的绑定,受访者认为这是合理路径,DeepSeek还可以另起一套代码库适配国产硬件生态,同时针对英伟达GPU展示优化能力也是必要动作。
在DeepSeek开源周期间,海内外大模型发布频繁,包括腾讯混元Turbo S、阿里QwQ-Max预览版、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5。出人意料的是,GPT-4.5反响平平,除了基准测试超过4.0,定价高昂,每百万tokens输入为75美元,输出为150美元。
OpenAI CEO表示,GPT-4.5是最后一个非链式思维模型,未来发布的GPT-5将是包含多种技术混合的模型。DeepSeek在开源过程中,毫无保留地分享了绝大多数算法和工程细节,但仍掌握了一些核心能力,如模型训练深层次的know how和训练数据细节。
(文章来源:界面新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

