分页: 1 / 1

#1 DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 29日 15:55
somesome

9月29日,DeepSeek更新了一个实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的“稀疏注意力机制”,DSA可以在长上下文中进行更快、更高效的训练和推理。


#2 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 29日 15:56
cellcycle1

不懂,只点赞,


#3 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 29日 17:14
Crocodile

另起炉灶,不一定能成功。


#4 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 29日 17:22
cernivtsi

sliding window 加 top-k 的trick


#5 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 29日 17:25
mmking

啊?

cernivtsi 写了: 2025年 9月 29日 17:22

sliding window 加 top-k 的trick


#6 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 29日 17:31
cernivtsi
mmking 写了: 2025年 9月 29日 17:25

啊?

站内帖子:Re: Deepseek v3.2


#7 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

发表于 : 2025年 9月 30日 07:47
minren

大智慧创造“注意力”,小聪明围着它打补丁。