hci说的内注意力有道理

版主: hci

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 550
帖子: 24402
注册时间: 2022年 7月 24日 17:21

#1 hci说的内注意力有道理

帖子 Caravel楼主 »

现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行

+1.00 积分 [版主 hci 发放的奖励]

标签/Tags:
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 458
帖子: 9897
注册时间: 2022年 7月 22日 15:29

#2 Re: hci说的内注意力有道理

帖子 hci(海螺子) »

很明显呀,目前的LLM的功能就是一个纯函数,输入映射到输出,并没有自己的状态,还不如马尔可夫链。

所以在我老鼓吹agent几年后,业界终于跟上趟了,都在搞agent。也就是要有自己的状态,最好是单个用户专有的状态。各大公司也在组建团队开始搞这些了。我找工的时候遇到一些这样的职位,当然我签了NDA,不能透露是哪些公司。其实这些东西我的公司早就已经做出来了,没人鸟,也没办法。

做预言家没有什么好处,给人类做贡献,就是行善,积累功德,争取早日修成正果。
上次由 hci 在 2025年 7月 10日 19:28 修改。
原因: 未提供修改原因
newguy
见习作家
见习作家
帖子互动: 20
帖子: 449
注册时间: 2024年 1月 9日 01:41

#3 Re: hci说的内注意力有道理

帖子 newguy »

Caravel 写了: 2025年 7月 10日 16:28 现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行
这个感觉是insight啊,我感觉最近已经进步很多了,就是没测试过大型问题。
fantasist
见习点评
见习点评
帖子互动: 165
帖子: 1400
注册时间: 2022年 7月 24日 19:52

#4 Re: hci说的内注意力有道理

帖子 fantasist »

Caravel 写了: 2025年 7月 10日 16:28 现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行
就像人类无法有效context switch,inference stack处理大量不同的任务时kv cache老被刷掉,当然效率低
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 684
帖子: 6986
注册时间: 2022年 7月 23日 22:13

#5 Re: hci说的内注意力有道理

帖子 wass »

hci 写了: 2025年 7月 10日 19:22 很明显呀,目前的LLM的功能就是一个纯函数,输入映射到输出,并没有自己的状态,还不如马尔可夫链。

所以在我老鼓吹agent几年后,业界终于跟上趟了,都在搞agent。也就是要有自己的状态,最好是单个用户专有的状态。各大公司也在组建团队开始搞这些了。我找工的时候遇到一些这样的职位,当然我签了NDA,不能透露是哪些公司。其实这些东西我的公司早就已经做出来了,没人鸟,也没办法。

做预言家没有什么好处,给人类做贡献,就是行善,积累功德,争取早日修成正果。
无厘头

编程工具已经不只是llm,已经是agents,有context/memory,有tools,还有越来越多的mcp
bihai
见习点评
见习点评
帖子互动: 59
帖子: 1498
注册时间: 2022年 7月 24日 20:58

#6 Re: hci说的内注意力有道理

帖子 bihai »

Caravel 写了: 2025年 7月 10日 16:28 现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行
需要多少显存呢?现在对每一个问问题的对话,用了多少显存?有1TB没有?
Terminus
知名作家
知名作家
帖子互动: 30
帖子: 955
注册时间: 2022年 9月 11日 21:21

#7 Re: hci说的内注意力有道理

帖子 Terminus »

?使用大量内存和算力的(无)状态机?WTF😱
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 684
帖子: 6986
注册时间: 2022年 7月 23日 22:13

#8 Re: hci说的内注意力有道理

帖子 wass »

用户端不需要显卡
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 458
帖子: 9897
注册时间: 2022年 7月 22日 15:29

#9 Re: hci说的内注意力有道理

帖子 hci(海螺子) »

正是如此,有意思吧。

这个问题出现在我的一轮ML面试中:"what is the computational nature of a transformer model?” 回答:"it is a stateless function,mapping one sequence to another”… "what does attention mechanism do? How does it work”,回答如我在这儿解释Q,K,V一样。还有些其它问题,都用我在这儿发表的言论回答。

顺利进入下一轮。

如果你扯什么涌现,模拟大脑,AGI啥的,应该过不了这种面试,哈哈哈。
Terminus 写了: 昨天 15:59 ?使用大量内存和算力的(无)状态机?WTF😱
上次由 hci 在 2025年 7月 13日 01:12 修改。
原因: 未提供修改原因
bihai
见习点评
见习点评
帖子互动: 59
帖子: 1498
注册时间: 2022年 7月 24日 20:58

#10 Re: hci说的内注意力有道理

帖子 bihai »

wass 写了: 昨天 18:01 用户端不需要显卡
服务器端用多少?
回复

回到 “葵花宝典(Programming)”