DeepSeek发布稀疏注意力技术降低AI推理成本

DeepSeek发布实验版本DeepSeek-V3.2-Exp，引入"稀疏注意力"技术来解决长对话处理中的计算瓶颈。该技术通过选择性处理词汇关系而非全量计算，将API成本降低50%。稀疏注意力并非新概念，OpenAI早在2019年就使用过类似技术，但DeepSeek声称实现了"细粒度稀疏注意力"的突破。基准测试显示该模型性能与前代相当，且开源发布。

为什么ChatGPT在长对话中会变慢？原因在于一个基础数学挑战：处理长文本序列需要巨大的计算资源，即使已经部署了效率优化技巧。虽然美国科技巨头可以投入更多硬件来解决这个问题，但受到出口限制无法稳定获得先进AI芯片的中国AI公司深度求索（DeepSeek），有着更强的动机从更少的硅芯片中榨取更多性能。

周一，深度求索发布了其最新模拟推理大语言模型的实验版本DeepSeek-V3.2-Exp，引入了被称为"DeepSeek稀疏注意力"（DSA）的技术。这是该公司对一项可能已在世界上一些最知名AI模型中使用的计算技术的实现。OpenAI在2019年首创了稀疏Transformer，并使用这项技术构建了GPT-3，而谷歌研究院在2020年发表了使用类似概念的"Reformer"模型研究。（西方AI公司目前在其最新模型中使用稀疏注意力的全部程度仍未公开。）

尽管稀疏注意力多年来一直是已知的方法，但深度求索声称其版本"首次实现了细粒度稀疏注意力"，并将API价格降低了50%以展示效率提升。但要更好地理解DeepSeek v3.2的显著之处，有必要回顾一下AI发展历史。

深度求索在1月份引起轰动，其R1模拟推理模型据报道在仅花费600万美元训练成本的情况下达到了OpenAI的o1性能水平，其聊天应用一度登顶iPhone应用商店榜首，超越了ChatGPT。所有目光都聚焦在这家让美国顶尖AI实验室感受到竞争压力的公司身上。

注意力瓶颈

在AI中，"注意力"是指一种软件技术，用于确定文本中哪些词语与理解彼此最相关。这些关系映射出上下文，而上下文构建了语言的含义。例如，在句子"银行提高了利率"中，注意力帮助模型确定"银行"在金融语境中与"利率"相关，而非河岸语境。通过注意力，概念关系被量化为存储在神经网络中的数字。注意力还控制着AI大语言模型在生成回应的每个词时如何选择"最重要"的信息。

用机器计算上下文很复杂，直到GPU等能够并行计算这些关系的芯片达到一定能力水平后，才在规模化应用中变得实用。即便如此，2017年的原始Transformer架构以一种暴力破解的方式检查提示词中每个词与其他所有词的关系。因此，如果向AI模型输入1000个词的提示，就会产生1000×1000次比较，即需要计算100万个关系。对于10000个词，这变成了1亿个关系。成本呈二次方增长，这为处理长对话创造了根本性瓶颈。

尽管OpenAI可能在GPT-5中使用了某些稀疏注意力技术，但长对话仍然会遭受性能损失。每次向ChatGPT提交新回应时，其核心的AI模型都会重新处理整个对话历史的上下文比较。

当然，原始Transformer模型的研究者将其设计用于相对较短序列的机器翻译（可能几百个Token，Token是代表词语的数据块），在这种情况下二次方注意力是可管理的。当人们开始扩展到数千或数万个Token时，二次方成本变得令人望而却步。

稀疏注意力的工作方式不同。它不是检查每个词与每个词的关系，而是只检查模型确定最相关的词关系子集。例如，在处理文档中第5000个词时，模型可能只检查其与100个精心选择的早期词语的关系，而不是所有4999个前面的词语。

深度求索的模型通过训练获得了确定哪些关系优先的能力，使用被深度求索称为"闪电索引器"的技术。如深度求索关于新模型的论文所述，这个小型神经网络组件对词对之间的相关性进行评分，并为每个词选择前2048个最重要的连接，尽管论文没有完全解释这个索引器如何做出决策。深度求索声称其实现可以识别哪些连接可以跳过，而不会降低模型对整体文本的理解。

早期基准测试显示前景

DeepSeek-V3.2-Exp建立在该公司之前的V3.1-Terminus模型基础上，但融入了DeepSeek稀疏注意力。根据该公司的基准测试，实验模型即使在使用稀疏注意力的情况下，性能也与其前身相当。

值得注意的是，与OpenAI和Anthropic的高端AI模型不同，该版本包含在MIT许可证下的开源组件和开放权重，允许其他研究者在此基础上构建工作。

TechCrunch报道称，深度求索的初步测试发现，在长上下文情况下，API成本可以减少多达一半。然而，这些基准测试来自深度求索的自己测试，第三方研究者还没有时间独立验证性能声明或验证效率改进。但如果研究结果得到证实，稀疏注意力技术的改进可能会随着时间推移大幅降低AI推理成本。

Q&A

Q1：DeepSeek稀疏注意力技术是什么？

A：DeepSeek稀疏注意力（DSA）是一种计算技术，不同于传统方法检查每个词与每个词的关系，它只检查模型确定最相关的词关系子集。通过"闪电索引器"组件为每个词选择前2048个最重要的连接，从而大幅减少计算量。

Q2：为什么ChatGPT在长对话中会变慢？

A：原因在于传统Transformer架构采用二次方注意力机制，需要检查每个词与其他所有词的关系。1000个词需要100万次比较，10000个词需要1亿次比较，成本呈二次方增长，创造了处理长对话的根本性瓶颈。

Q3：DeepSeek稀疏注意力技术能带来多大的成本节省？

A：根据深度求索的初步测试，在长上下文情况下API成本可以减少多达50%。该公司已将API价格降低50%来展示效率提升，不过这些基准测试来自深度求索自己的测试，还需要第三方研究者独立验证。

来源：Arstechnica

0赞

好文章，需要你的鼓励

DeepSeek发布稀疏注意力技术降低AI推理成本

来源：Arstechnica

2025

10/09

08:06

分享

点赞

智算前沿 焕芯未来—MINISFORUM 与 AMD 联合举办AI 双旗舰产品体验会

锐龙9高端游戏本突破百万销量 京东“超级供应链”成AMD 增长强引擎

西门子发布数据中心解决方案5.0，创新型直流配电产品首次亮相中国市场

研究人员利用300万天Apple Watch数据训练疾病检测AI

CoreWeave CEO 为 AI 循环交易辩护称其为"协作共赢"

IT领导者不可忽视的生成式AI价值实现五大趋势

AI安全监管亟待加强，头部科技公司评分不及格

TPU挑战GPU霸主地位，谷歌专用芯片崛起

2026年AI预测：自动化发展与工作未来的十大趋势

亚马逊计划2030年前在印度投资350亿美元聚焦AI与物流

Adobe将Photoshop、Acrobat和Adobe Express集成至ChatGPT

Google DeepMind与Apptronik展示家用人形机器人执行真实世界任务

ServiceNow押注AI优先界面将定义企业AI未来

AI时代数据中心液冷技术变革与热管理策略演进

Zayo与Equinix联合发布AI基础设施架构框架

数据中心的智算挑战，英特尔要如何应对？

OpenAI将发布类似TikTok的社交应用，搭配Sora 2视频模型

微软推出Office智能体模式让用户"氛围办公"

AI助手现在能帮你创建高质量Word文档和Excel表格

高通新一代骁龙平台将推动智能体AI时代到来

微软推出"氛围工作"模式，为Office套件加入AI智能体

OpenAI推出智能购物系统挑战谷歌亚马逊

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

智算前沿焕芯未来—MINISFORUM 与 AMD 联合举办AI 双旗舰产品体验会

锐龙9高端游戏本突破百万销量京东“超级供应链”成AMD 增长强引擎