梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

蓝狐工商代办 02-19 21 抢沙发

默认

摘要： ...

2月18日，在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。

微信号：MD80086
添加微信好友, 获取更多信息
复制微信号

这篇论文的核心关于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA（稀疏注意力）在提高效率同时，为提高模型能力提供新的方向，实现将算法创新与硬件对齐的优化相结合，进行高效的长上下文建模。

DeepSeek在论文中介绍，NSA采用动态分层稀疏策略，将粗粒度标记压缩与细粒度标记选择相结合，以保持全局上下文感知和局部精度。通过两项关键创新推进稀疏注意力设计：第一，通过算术强度平衡算法设计实现了显着的加速，并针对现代硬件进行了实现优化。第二，支持端到端训练，在不牺牲模型性能的情况下减少预训练计算。

实验表明，使用 NSA 预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过了全注意力模型。同时，NSA在64k长度序列的解码、前向传播和后向传播过程中实现比全注意力机制显著的加速，验证其在整个模型生命周期中的效率。

“此次DeepSeek发布的论文，可以称为基石更新。”业内人士向澎湃新闻记者评论，此前的DeepSeek-R1的瓶颈在于输入上下文能力方面相对不足，此次更新正是解决了原先大模型文字处理的问题。从内容来看，NSA主要针对长上下文高速训练，在长上下文情况下，相比原先的结构有更慢的性能衰减，这导致长思维链的 COT 效果会更好，对于复杂数学推导非常有价值。

据业内人士分析，DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础，但其核心算法注意力机制存在先天问题：为了理解和生成，会阅读文本里的每个词，并拿它与其他所有词作比较，导致处理文本越长，技术就会越卡，甚至崩溃。

通过NSA新架构，和Transformer原先传统的注意力机制相比，准确率相同或更高，处理64k标记序列时速度可提高至11.6倍，且训练更高效，所需算力更少。

值得注意的是，此次论文作者中，梁文锋在作者排名中位列倒数第二。而第一作者是袁景阳（Jingyang Yuan）。据公开信息，袁景阳目前是北京大学硕士研究生，研究领域包括LLM和AI for Science，目前是DeepSeek的实习生，据袁景阳个人主页，他在去年参与7篇论文的撰写。

此前，在发布Grok 3同时，马斯克透露，Grok 3的计算能力是Grok 2的10倍以上，训练过程累计消耗20万张英伟达GPU。而梁文锋的训练思路似乎与马斯克截然相反，更关注如何在更少算力消耗下，达到更好的计算效果。

有趣的是，对于马斯克坚持大力出奇迹的思路，另一家国内大模型独角兽“月之暗面”几乎在同时提出挑战。

2月18日，就在DeepSeek论文发布当天，月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS（直译为“MoBA：面向长上下文大语言模型的块注意力混合方法”）》，提出了与NSA类似的稀疏注意力框架MoBA，并设计了一套可以自由切换全注意力和稀疏注意力机制的方式，为已有的全注意力模型更多的适配空间。

据介绍，MoBA是“一种将混合专家（MoE）原理应用于注意力机制的创新方法”，旨在提高长文本处理效率。经过Kimi平台验证，MoBA架构能将处理1M长文本的速度提升6.5倍，将处理10M长文本的速度提升16倍。

MoBA提升效率的关键手段在于仅关注部分键值。Kimi团队把完整的上下文划分成“块（block）”、让每个查询token自动关注最相关的KV（键值）块，从而实现长序列数据的高效处理，并提出一种新的top-k门控机制，无需额外训练参数，为每个查询token挑选出最相关的“块”，保证模型的注意力聚焦在包含最有用信息的“块”上。

Kimi团队表示，开展这项研究的原因在于，在传统注意力机制中，计算复杂度随着序列长度的增加而呈平方级增长，阻碍了模型对长序列的高效处理。MoBA架构能够轻松融入现有模型，不需要高昂的训练成本，并实现与全注意力模式的无缝切换。

国产AI竞赛正在日益加剧中。1月20日，中国AI初创公司深度求索（DeepSeek）推出大模型DeepSeek-R1。作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等。春节假期后，国内多个行业龙头公司均宣布接入DeepSeek。

2月8日，QuestMobile数据显示，DeepSeek在1月28日的日活跃用户数首次超越豆包，随后在2月1日突破3000万大关，成为史上最快达成这一里程碑的应用。

DeepSeek的爆发正在重塑中国大模型行业，从过去的“烧钱换估值”转向关注技术性价比与商业化闭环。在这个日新月异的赛道，由DeepSeek引领的开源已成为大模型整体潮流，2月18日，阶跃星辰和吉利汽车联合宣布，将双方合作的阶跃两款Step系列多模态大模型向全球开发者开源。其中，包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V，以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。

文章版权及转载声明

作者:蓝狐工商代办本文地址：http://daiban08.com/post/58705.html发布于 02-19
文章转载或复制请以超链接形式并注明出处宜春市宿贝商贸有限公司_电商代办营业执照_代办工商营业执照注册_电商营业执照代办_个体工商户营业执照代办

打赏