AI导读:

DeepSeek团队发布新的注意力机制NSA,专为长文本训练与推理设计,显著提升AI模型在长上下文推理能力上的表现,降低预训练成本,提高推理速度,扩展大语言模型应用边界。

2月18日,Deepseek团队发布了一篇关于新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)的论文。NSA专为长文本训练与推理设计,通过动态分层稀疏策略等方法,并经过针对现代硬件的优化,显著提升了AI模型在训练和推理过程中的表现,特别是在长上下文推理能力上。在保证性能的同时,NSA提高了推理速度,并有效降低了预训练成本。

DeepSeek创始人梁文锋位列论文作者倒数第二,其他研究人员来自DeepSeek、北大和华盛顿大学。第一作者袁景阳在DeepSeek实习期间完成了这项研究,他目前为北京大学硕士研究生,研究领域包括大型语言模型和人工智能在科学中的应用。

随着大型语言模型的发展,长上下文建模变得越来越重要,但传统注意力机制的计算复杂度成为制约模型发展的关键瓶颈。NSA通过动态分层稀疏策略和硬件对齐与端到端训练,显著提升了计算速度,支持端到端训练,减少了预训练计算量。

实验表明,NSA在通用任务和长上下文任务中表现出色,在链式推理等复杂任务中也展现出强大潜力,推理速度加快。NSA在通用基准测试、长文本处理以及基于指令的推理任务中,表现均能达到甚至超越传统全注意力模型的水平,特别是在解码阶段实现了高达11.6倍的提升。

NSA的高效长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话,扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

(文章来源:财联社)