Google Research - 记忆模型 - long context transformer

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13246
注册时间: 2022年 7月 26日 00:35

#1 Google Research - 记忆模型 - long context transformer

帖子 TheMatrix楼主 »

上次由 TheMatrix 在 2025年 1月 14日 15:59 修改。
原因: 未提供修改原因

标签/Tags:
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13246
注册时间: 2022年 7月 26日 00:35

#2 Re: Google Research - 记忆模型 - long context transformer

帖子 TheMatrix楼主 »

这个看了。有点启发:

图片

人是有记忆的,而记忆是压缩的。压缩了还可以再压缩。神经网络就那么大,但是事件,信息,知识可以不断的往里存,就是因为压缩了还可以再压缩。而且这个过程并不是那种费很大劲的过程,更像是一种“浸染”的过程。

所以一个记忆体,可以体积不大,但是里面存了很长时间的事件,信息,知识。安排的合理的话,都是有用的知识。input来了,先到这个记忆体里面query一下,增广一下original input,再一起送入transformer,这就相当于增加了context length,而且相当于增加到无穷长。
上次由 TheMatrix 在 2025年 1月 15日 15:08 修改。
原因: 未提供修改原因
回复

回到 “STEM”