DS Sparse Attention(DSA)将训练成本减50%



散仙谷 http://www.webjb.org/webjb/sanxian/



送交者: testtesttest 于 2025-10-02 06:12:26

回答: 华为升腾950,将搭载自研HBM 由 于 2025-10-02 05:45:04

DeepSeek发布V3.2-Exp:引入DSA、价格腰斩,为V4、R3铺路

2025-10-01 12:14

AI圈,不同的公司似乎都有着自己独特的发布节奏,比如OpenAI和Google喜欢相互“狙击”,在国内被津津乐道的,可能要属DeepSeek的“节前上新”。
一张流传颇广的Hugging Face留言截图,就精准吐槽了DeepSeek这种总是在法定节假日前几天发布新产品的习惯。这次,DeepSeek同样遵循这个规律,在国庆前夕带来了最新的模型DeepSeek-V3.2-Exp。

新模型的后缀“Exp”代表实验性(Experimental)的定位,核心是引入了一项名为DeepSeek Sparse Attention(DSA)的新架构。DSA首次实现了细粒度稀疏注意力机制,几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。DeepSeek也同步大幅下调了其API服务的价格,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。
DSA:通向下一代模型的阶梯?
根据DeepSeek的官方描述,V3.2-Exp并非一个全新的模型系列,而是其迈向下一代架构的一个“中间步骤”。它以前代模型V3.1-Terminus为基础,通过“持续训练”(continued training)的方式,核心目的在于引入并验证其最新的DeepSeek稀疏注意力(DSA)机制。官方将其定位为一次针对长文本训练与推理效率的“探索性优化和验证”。

为了更好的理解这次更新,需要从DSA入手。在Transformer架构中,传统的注意力机制是“稠密的”,处理长文本时成本会呈指数级增长。DSA则提供了一种更高效的“稀疏”方案,让模型学会在处理每个字时,只关注那些与它最相关的少数关键信息,从而在理论上大幅提升效率。
...


阅读次数:35

所有跟贴:

加跟贴

笔名: 密码: 注册笔名请按这里
标题:   分类主题名:

内容(可选项):

URL(可选项):
URL标题(可选项):
图像(可选项): 图片上传工具



所有跟贴·加跟贴·ɢɹ
Copyright © 2000 - 2020 webjb.org