DeepSeek发布原生稀疏注意力机制NSA技术报告
AI导读:
DeepSeek官方发布了一篇关于NSA(原生稀疏注意力)的纯技术论文报告,该机制专为超快速长文本训练与推理设计,旨在提高效率同时保持模型能力。NSA通过优化,降低了预训练成本,为处理长上下文任务提供了高效解决方案,将推动更强大、更经济的语言模型的发展。
2月18日,Deepseek官方在海外社交平台X上发布了一篇关于NSA(Natively Sparse Attention,原生稀疏注意力)的纯技术论文报告。NSA是一种专为超快速长文本训练与推理设计的、硬件对齐且可原生训练的稀疏注意力机制。
NSA针对现代硬件进行了优化,不仅加速了推理过程,还降低了预训练成本,同时保持了卓越的性能。在通用基准测试、长文本任务和基于指令的推理中,NSA均展现出了与全注意力模型相当或更优的表现。这一机制为提高效率同时保持模型能力提供了新的方向。
DeepSeek创始人梁文锋也参与了这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的论文。论文指出,长上下文建模对于下一代大型语言模型至关重要,但标准注意力机制在高复杂度下成为了延迟瓶颈。

DeepSeek团队表示,NSA通过优化,解决了长文本处理中的延迟问题,为处理长上下文任务提供了高效解决方案。这一技术将推动更强大、更经济的语言模型的发展,特别是在文档分析、代码生成等领域。
NSA还能降低算力门槛与部署成本,减少预训练所需的计算资源,加速推理过程,使长文本生成(如代码补全、故事续写)的实时性更高。DeepSeek的这一创新得到了业界的广泛关注。
一位X用户评价称:“NSA机制改变了游戏规则,对扩大教育领域AI至关重要。”自1月20日发布DeepSeek-R1以来,这是DeepSeek首次发布的技术动态。
“DeepSeek team is cooking!”(DeepSeek团队正在积极工作!)网友们纷纷表示期待。
(文章来源:第一财经)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

