AI导读:

DeepSeek官方发布了一篇关于NSA(原生稀疏注意力)的纯技术论文报告,该机制专为超快速长文本训练与推理设计,旨在提高效率同时保持模型能力。NSA通过优化,降低了预训练成本,为处理长上下文任务提供了高效解决方案,将推动更强大、更经济的语言模型的发展。

2月18日,Deepseek官方在海外社交平台X上发布了一篇关于NSA(Natively Sparse Attention,原生稀疏注意力)的纯技术论文报告。NSA是一种专为超快速长文本训练与推理设计的、硬件对齐且可原生训练的稀疏注意力机制。

NSA针对现代硬件进行了优化,不仅加速了推理过程,还降低了预训练成本,同时保持了卓越的性能。在通用基准测试、长文本任务和基于指令的推理中,NSA均展现出了与全注意力模型相当或更优的表现。这一机制为提高效率同时保持模型能力提供了新的方向。

DeepSeek创始人梁文锋也参与了这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的论文。论文指出,长上下文建模对于下一代大型语言模型至关重要,但标准注意力机制在高复杂度下成为了延迟瓶颈。

DeepSeek团队表示,NSA通过优化,解决了长文本处理中的延迟问题,为处理长上下文任务提供了高效解决方案。这一技术将推动更强大、更经济的语言模型的发展,特别是在文档分析、代码生成等领域。

NSA还能降低算力门槛与部署成本,减少预训练所需的计算资源,加速推理过程,使长文本生成(如代码补全、故事续写)的实时性更高。DeepSeek的这一创新得到了业界的广泛关注。

一位X用户评价称:“NSA机制改变了游戏规则,对扩大教育领域AI至关重要。”自1月20日发布DeepSeek-R1以来,这是DeepSeek首次发布的技术动态。

“DeepSeek team is cooking!”(DeepSeek团队正在积极工作!)网友们纷纷表示期待。

(文章来源:第一财经