DeepSeek发布原生稀疏注意力机制NSA技术报告

财经聚焦 2025-02-18 17:11:08 来源：第一财经作者：网络

AI导读：

DeepSeek官方发布了一篇关于NSA（原生稀疏注意力）的纯技术论文报告，该机制专为超快速长文本训练与推理设计，旨在提高效率同时保持模型能力。NSA通过优化，降低了预训练成本，为处理长上下文任务提供了高效解决方案，将推动更强大、更经济的语言模型的发展。

2月18日，Deepseek官方在海外社交平台X上发布了一篇关于NSA（Natively Sparse Attention，原生稀疏注意力）的纯技术论文报告。NSA是一种专为超快速长文本训练与推理设计的、硬件对齐且可原生训练的稀疏注意力机制。

NSA针对现代硬件进行了优化，不仅加速了推理过程，还降低了预训练成本，同时保持了卓越的性能。在通用基准测试、长文本任务和基于指令的推理中，NSA均展现出了与全注意力模型相当或更优的表现。这一机制为提高效率同时保持模型能力提供了新的方向。

DeepSeek创始人梁文锋也参与了这篇名为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》的论文。论文指出，长上下文建模对于下一代大型语言模型至关重要，但标准注意力机制在高复杂度下成为了延迟瓶颈。

DeepSeek团队表示，NSA通过优化，解决了长文本处理中的延迟问题，为处理长上下文任务提供了高效解决方案。这一技术将推动更强大、更经济的语言模型的发展，特别是在文档分析、代码生成等领域。

NSA还能降低算力门槛与部署成本，减少预训练所需的计算资源，加速推理过程，使长文本生成（如代码补全、故事续写）的实时性更高。DeepSeek的这一创新得到了业界的广泛关注。

一位X用户评价称：“NSA机制改变了游戏规则，对扩大教育领域AI至关重要。”自1月20日发布DeepSeek-R1以来，这是DeepSeek首次发布的技术动态。

“DeepSeek team is cooking!”（DeepSeek团队正在积极工作！）网友们纷纷表示期待。

（文章来源：第一财经）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。