DeepSeek稀疏注意力了,元芳,你怎么看?

股市相关讨论

版主: 牛河梁

回复
somesome(dingding)楼主
著名点评
著名点评
帖子互动: 674
帖子: 4624
注册时间: 2022年 10月 10日 15:50

#1 DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 somesome(dingding)楼主 »

9月29日,DeepSeek更新了一个实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的“稀疏注意力机制”,DSA可以在长上下文中进行更快、更高效的训练和推理。

x1 图片
cellcycle1
论坛元老
论坛元老
cellcycle1 的博客
帖子互动: 1029
帖子: 70385
注册时间: 2022年 7月 24日 15:59

#2 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 cellcycle1 »

不懂,只点赞,

x1 图片
头像
Crocodile
论坛点评
论坛点评
帖子互动: 283
帖子: 2188
注册时间: 2025年 7月 31日 10:23

#3 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 Crocodile »

另起炉灶,不一定能成功。

cernivtsi
职业作家
职业作家
帖子互动: 72
帖子: 711
注册时间: 2025年 1月 5日 03:03

#4 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 cernivtsi »

sliding window 加 top-k 的trick

头像
mmking(上水)
论坛支柱
论坛支柱
帖子互动: 1714
帖子: 12639
注册时间: 2023年 1月 25日 05:10

#5 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 mmking(上水) »

啊?

cernivtsi 写了: 2025年 9月 29日 17:22

sliding window 加 top-k 的trick

又开赌盘了,看看川宝会不会反对台湾独立:viewtopic.php?t=880584

凡所有相,皆是虚妄

viewtopic.php?t=864957

图片

cernivtsi
职业作家
职业作家
帖子互动: 72
帖子: 711
注册时间: 2025年 1月 5日 03:03

#6 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 cernivtsi »

mmking 写了: 2025年 9月 29日 17:25

啊?

站内帖子:Re: Deepseek v3.2

minren
知名作家
知名作家
帖子互动: 154
帖子: 1040
注册时间: 2022年 11月 14日 22:45

#7 Re: DeepSeek稀疏注意力了,元芳,你怎么看?

帖子 minren »

大智慧创造“注意力”,小聪明围着它打补丁。

回复

回到 “股海弄潮(Stock)”