hci说的内注意力有道理

Caravel · 帖子由 **Caravel楼主** » 昨天 16:28

现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行

hci · 帖子由 **hci（海螺子）** » 昨天 19:22

很明显呀，目前的LLM的功能就是一个纯函数，输入映射到输出，并没有自己的状态，还不如马尔可夫链。

所以在我老鼓吹agent几年后，业界终于跟上趟了，都在搞agent。也就是要有自己的状态，最好是单个用户专有的状态。各大公司也在组建团队开始搞这些了。我找工的时候遇到一些这样的职位，当然我签了NDA，不能透露是哪些公司。其实这些东西我的公司早就已经做出来了，没人鸟，也没办法。

做预言家没有什么好处，给人类做贡献，就是行善，积累功德，争取早日修成正果。

newguy · 帖子由 **newguy** » 昨天 19:34

Caravel 写了：昨天 16:28 现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行

这个感觉是insight啊，我感觉最近已经进步很多了，就是没测试过大型问题。

fantasist · 帖子由 **fantasist** » 昨天 22:12

Caravel 写了：昨天 16:28 现在LLM效率不行的一个原因

就是每次都要把context过一遍

最后才关注到最新的问题

一个正常人有一个自己的状态

内注意力一直关注在最新的动态上面

目前的架构不行

就像人类无法有效context switch，inference stack处理大量不同的任务时kv cache老被刷掉，当然效率低

wass · 帖子由 **wass** » 昨天 23:12

hci 写了：昨天 19:22 很明显呀，目前的LLM的功能就是一个纯函数，输入映射到输出，并没有自己的状态，还不如马尔可夫链。

所以在我老鼓吹agent几年后，业界终于跟上趟了，都在搞agent。也就是要有自己的状态，最好是单个用户专有的状态。各大公司也在组建团队开始搞这些了。我找工的时候遇到一些这样的职位，当然我签了NDA，不能透露是哪些公司。其实这些东西我的公司早就已经做出来了，没人鸟，也没办法。

做预言家没有什么好处，给人类做贡献，就是行善，积累功德，争取早日修成正果。

无厘头

编程工具已经不只是llm，已经是agents，有context/memory，有tools，还有越来越多的mcp

新未名空间

hci说的内注意力有道理

#1 hci说的内注意力有道理

#2 Re: hci说的内注意力有道理

#3 Re: hci说的内注意力有道理

#4 Re: hci说的内注意力有道理

#5 Re: hci说的内注意力有道理