大模型的幻觉问题可以解决

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24556
注册时间: 2022年 7月 24日 17:21

#1 大模型的幻觉问题可以解决

帖子 Caravel楼主 »

解决方法就是冗余采样,比如让三个不同的大模型都来回答,如果不一致,就认为不可靠。

当然在最外层做这个效率不高,应该build in到模型里面就有一个网络结构负责这个。最后综合给出答案。在不确定的时候可以通过外部工具比如网络搜索来重新获取。

所以下一步agent架构呼之欲出。

标签/Tags:
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#2 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

Caravel 写了: 2025年 2月 15日 13:34 解决方法就是冗余采样,比如让三个不同的大模型都来回答,如果不一致,就认为不可靠。

当然在最外层做这个效率不高,应该build in到模型里面就有一个网络结构负责这个。最后综合给出答案。在不确定的时候可以通过外部工具比如网络搜索来重新获取。

所以下一步agent架构呼之欲出。
wdong的agent架构就能做冗余采样。

wdont的agent是“有identity”的agent。但是它的identity不是保存在神经网络里的,而是保存在Journal/context里的。这有点意思。
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24556
注册时间: 2022年 7月 24日 17:21

#3 Re: 大模型的幻觉问题可以解决

帖子 Caravel楼主 »

TheMatrix 写了: 2025年 2月 15日 13:49 wdong的agent架构就能做冗余采样。

wdont的agent是“有identity”的agent。但是它的identity不是保存在神经网络里的,而是保存在Journal/context里的。这有点意思。
牛,agent是下一个方向,以后的chatbot不需要选择reasoning或者search,自己选择决定
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#4 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

Caravel 写了: 2025年 2月 15日 13:58 牛,agent是下一个方向,以后的chatbot不需要选择reasoning或者search,自己选择决定
wdong的agent似乎不是一个神经网络。不清楚它怎么能自己决定干什么。
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#5 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

TheMatrix 写了: 2025年 2月 15日 13:49 wdong的agent架构就能做冗余采样。

wdont的agent是“有identity”的agent。但是它的identity不是保存在神经网络里的,而是保存在Journal/context里的。这有点意思。
直接用我的框架通过发邮件来干这个事情。我的系统里agent clone不需要额外操作。直接给xxx@agents.localdomain发邮件,如果不能存在会自动创建。如果是xxx.yyy@agents.localdomain这种格式,则系统会去找yyy@agents.localdomain,如果找到了则clone这个地址为xxx.yyy。

所以基本算法就是,假设我在和 007@agents.localdomain对话,我可以这么跟他对话。

Enumerate all strategies you can think up to solve this problem. Using numbered bullets.

然后它就会列出来比如20条可能的办法。

然后我会说,for each bullet, for example bullet 17, send an email to 17.007@agents.localdomain, and ask it to produce a solution using this strategy。
You need to email a different agent (which will be a clone of you) for each strategy. Wait for their reply and then summarize the outcome and report back to me。

(注意我不是一步到位,而是先看它列的20种方案靠不靠谱。在我的体系里这种中间步骤的确认非常重要。 同样的思想我之前在讨论写程序时也提过。 因为你不知道什么时候AI就开始发疯乱来了。)

这时候有趣的事情就发生了,007会给 17.007发邮件,让它探讨思路17. 系统检测到这个17.007是个新地址,所以当即从007 clone一个子程序(子agent)出来。对于17.007来说,它拥有007直到发这个邮件的记忆,包括所有的思路。但是接下来它会负责往思路17去解题。

最后所有的结果汇总到007后,再反馈给用户。但是我可以跟进一步。让007从所有子程序里挑最有希望的,比如17.007. 然后我们就把注意力切换到17.007,让它重复上面的这套操作。这个过程要想全自动化估计并不容易,但是如果我们是做科研项目,根本就不需要自动化。就这么一步步跟人讨论就可以。

整个过程非常明确是一个树搜索算法,但是这个算法我们是通过自然预言和agent沟通后实现的,并没有涉及比如python之类的编程语言,也不是写完了程序后再去执行,而是走一步看一步。这就是我想推的自然语言编程,agent-oriented programming。
上次由 wdong 在 2025年 2月 15日 14:22 修改。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#6 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

wdong 写了: 2025年 2月 15日 14:11 直接用我的框架通过发邮件来干这个事情。我的系统里agent clone不需要额外操作。直接给xxx@agents.localdomain发邮件,如果不能存在会自动创建。如果是xxx.yyy@agents.localdomain这种格式,则系统会去找yyy@agents.localdomain,如果找到了则clone这个地址为xxx.yyy。

所以基本算法就是,假设我在和 007@agents.localdomain对话,我可以这么跟他对话。

Enumerate all strategies you can think up to solve this problem. Using numbered bullets.

然后它就会列出来比如20条可能的办法。

然后我会说,for each bullet, for example bullet 17, send an email to 17.007@agents.localdomain, and ask it to produce a solution using this strategy。
You need to email a different agent (which will be a clone of you) for each strategy. Wait for their reply and then summarize the outcome and report back to me。

(注意我不是一步到位,而是先看它列的20种方案靠不靠谱。在我的体系里这种中间步骤的确认非常重要。 同样的思想我之前在讨论写程序时也提过。 因为你不知道什么时候AI就开始发疯乱来了。)

这时候有趣的事情就发生了,007会给 17.007发邮件,让它探讨思路17. 系统检测到这个17.007是个新地址,所以当即从007 clone一个子程序(子agent)出来。对于17.007来说,它拥有007直到发这个邮件的记忆,包括所有的思路。但是接下来它会负责往思路17去解题。

最后所有的结果汇总到007后,再反馈给用户。但是我可以跟进一步。让007从所有子程序里挑最有希望的,比如17.007. 然后我们就把注意力切换到17.007,让它重复上面的这套操作。这个过程要想全自动化估计并不容易,但是如果我们是做科研项目,根本就不需要自动化。就这么一步步跟人讨论就可以。
007这个agent收到20个clone agent的回复,它自己没有神经网络,怎么汇总啊?再发给一个model provider汇总?
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#7 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

TheMatrix 写了: 2025年 2月 15日 14:22 007这个agent收到20个clone agent的回复,它自己没有神经网络,怎么汇总啊?再发给一个model provider汇总?
注意007发送到LLM做inference的prompt是它的记忆,也就是它收发过的所有的邮件。 假设这20个子程序是一个一个顺序搞的,那么007的记忆大概是这个样子。你就想象007有个邮箱(把收件箱和发件箱的内容根据时间排序),这个邮箱就是agent的记忆,也是发送给LLM的prompt:

(下面每一个bullet具体展开为一个email)
- 用户邮件,要求列举idea
- 007自己的回复,列了20个idea
- 用户要求任务delegate给子程序。
- 007给1.007发邮件要求分析思路1.
- 1.007给的回复。
- 007给2.007发邮件要求分析思路1.
- 2.007给的回复。
...
- 007给20发邮件要求分析思路1.
- 20.007给的回复。

(你可以在我paper实验部分看到用mbox格式表示的实际数据。)

到这里, inference时LLM就知道20个回复都已经收齐了,需要开始总结。然后就会产生一个回复给用户的总结邮件。
这个过程里所有的inference,包括007和它的子程序的,可以全都是同一个LLM完成的。但是每次inference在prompt里面的记忆各不一样,也就是LLM每次都是代表不同状态的agent在做inference。

我这个框架很自由。你也可以让007转告子程序,结果不要发回007而是发回另一个agent或者直接发给你。你甚至可以要求发给某些人,cc给另外一些人。

关于To和CC的区别是,通过To收到的,必须给出回复。通过CC收到的,可以不给出回复。
上次由 wdong 在 2025年 2月 15日 14:32 修改。
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24556
注册时间: 2022年 7月 24日 17:21

#8 Re: 大模型的幻觉问题可以解决

帖子 Caravel楼主 »

wdong 写了: 2025年 2月 15日 14:11 直接用我的框架通过发邮件来干这个事情。我的系统里agent clone不需要额外操作。直接给xxx@agents.localdomain发邮件,如果不能存在会自动创建。如果是xxx.yyy@agents.localdomain这种格式,则系统会去找yyy@agents.localdomain,如果找到了则clone这个地址为xxx.yyy。

所以基本算法就是,假设我在和 007@agents.localdomain对话,我可以这么跟他对话。

Enumerate all strategies you can think up to solve this problem. Using numbered bullets.

然后它就会列出来比如20条可能的办法。

然后我会说,for each bullet, for example bullet 17, send an email to 17.007@agents.localdomain, and ask it to produce a solution using this strategy。
You need to email a different agent (which will be a clone of you) for each strategy. Wait for their reply and then summarize the outcome and report back to me。

(注意我不是一步到位,而是先看它列的20种方案靠不靠谱。在我的体系里这种中间步骤的确认非常重要。 同样的思想我之前在讨论写程序时也提过。 因为你不知道什么时候AI就开始发疯乱来了。)

这时候有趣的事情就发生了,007会给 17.007发邮件,让它探讨思路17. 系统检测到这个17.007是个新地址,所以当即从007 clone一个子程序(子agent)出来。对于17.007来说,它拥有007直到发这个邮件的记忆,包括所有的思路。但是接下来它会负责往思路17去解题。

最后所有的结果汇总到007后,再反馈给用户。但是我可以跟进一步。让007从所有子程序里挑最有希望的,比如17.007. 然后我们就把注意力切换到17.007,让它重复上面的这套操作。这个过程要想全自动化估计并不容易,但是如果我们是做科研项目,根本就不需要自动化。就这么一步步跟人讨论就可以。

整个过程非常明确是一个树搜索算法,但是这个算法我们是通过自然预言和agent沟通后实现的,并没有涉及比如python之类的编程语言,也不是写完了程序后再去执行,而是走一步看一步。这就是我想推的自然语言编程,agent-oriented programming。
👍,这种办法也可以消除halucion,可以clone三个agent, 再用一个agent比较分析一下。

你的agent是调用别的API,还是本地部署的?
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#9 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

我的策略是0部署。目前我整合了除了deepseek外所有常用的模型(deepseek最近很不稳定)。发邮件时加一个header X-Hint-Model。 一个agent给另外一个agent发邮件可以加这个header。至于怎么教会agent做这个事情,则需要通过跟它对话教。我现在的模型列表:

ACCEPTABLE_MODELS = set(['openai.gpt-4o-mini',
'openai.gpt-4o',
'anthropic.claude-3-5-sonnet-latest',
'anthropic.claude-3-5-haiku-latest',
'groq.gemma2-9b-it',
'groq.llama-3.2-1b-preview',
'groq.llama-3.2-3b-preview',
'groq.llama-3.3-70b-versatile',
'groq.llama-3.1-8b-instant',
'groq.deepseek-r1-distill-llama-70b',
'postline.dummy'])

上面列表里有个groq.deepseek...这个是个鸡毛模型。我把它当成某个版本的deepseek在上面调了好久, 骂人的话都写好了。结果发现根本不是deepseek,是用deepseek的输出finetune的llama。

因为不需要inference,我自己的服务器计算量非常小,一台服务器支持几千个并行的session都没问题。假设我要收费,我就在用户实际的模型外增收20%的overhead。
x1 图片
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#10 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

Caravel 写了: 2025年 2月 15日 13:34 解决方法就是冗余采样,比如让三个不同的大模型都来回答,如果不一致,就认为不可靠。

当然在最外层做这个效率不高,应该build in到模型里面就有一个网络结构负责这个。最后综合给出答案。在不确定的时候可以通过外部工具比如网络搜索来重新获取。

所以下一步agent架构呼之欲出。
Hallucination是一个很不好的说法,因为它既没法解决也没必要解决。人类所有的创新全都来自hallucination,因为你既然是创新,就是原来没有的,那么以原来的标准看就是hallucination。目前普遍关于hallucination的理解,其实就是inference的内容有错误。那么LLM要说有任何问题,不就是inference的内容有错误需要提高吗?

Voting这种做法早就有了。实际操作中用处并不大。你们看deepseek的paper,分数都是汇报了@1和@16两个。@16就是做16次voting。当然deepseek的@16种不同的估计是通过随机数产生的差别,这里我觉得有提高的可能。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#11 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

wdong 写了: 2025年 2月 15日 14:35 我的策略是0部署。目前我整合了除了deepseek外所有常用的模型(deepseek最近很不稳定)。发邮件时加一个header X-Hint-Model。 一个agent给另外一个agent发邮件可以加这个header。至于怎么教会agent做这个事情,则需要通过跟它对话教。我现在的模型列表:
你这个架构中的agent是纯agent,不能说“教会agent做这个事情”吧?应该说是“指令agent做这个事情”?
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#12 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

TheMatrix 写了: 2025年 2月 15日 14:47 你这个架构中的agent是纯agent,不能说“教会agent做这个事情”吧?应该说是“指令agent做这个事情”?
我的架构中agent和人的地位一样, 我的long term goal也是在社会层面让agent获得人的地位。比如我完全可以雇一个人,让他在我的系统中通过email和我交流, 除了智商水平有高低,别的看不出来是人还是agent。你怎么跟人发邮件,就怎么跟agent发邮件。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#13 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

wdong 写了: 2025年 2月 15日 14:57 我的架构中agent和人的地位一样, 我的long term goal也是在社会层面让agent获得人的地位。比如我完全可以雇一个人,让他在我的系统中通过email和我交流, 除了智商水平有高低,别的看不出来是人还是agent。你怎么跟人发邮件,就怎么跟agent发邮件。
一个agent保持了journal,甚至前面一个客户任务的journal,它就会更聪明了?就相当于学习了?能吗?
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#14 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

TheMatrix 写了: 2025年 2月 15日 15:02 一个agent保持了journal,甚至前面一个客户任务的journal,它就会更聪明了?就相当于学习了?能吗?
不能说更聪明,但是可以说更有经验了。对于很多实际问题,经验很重要。

In-context learning的有效性在chatgpt出来前就已经公认了,不用怀疑。就是学得好学得差的区别。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#15 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

wdong 写了: 2025年 2月 15日 15:04 不能说更聪明,但是可以说更有经验了。对于很多实际问题,经验很重要。

In-context learning的有效性在chatgpt出来前就已经公认了,不用怀疑。就是学得好学得差的区别。
上一个用户任务的对话也在agent journal上保留吗?
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#16 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

TheMatrix 写了: 2025年 2月 15日 15:15 上一个用户任务的对话也在agent journal上保留吗?
目前默认就是全保留。实在要删减,我有个MSR操作,paper里有写,实验也验证过能在一定程度上干活。但是需要人和agent对话配合。就是你看着journal很长了每次inference要花很多时间(钱),你可以让agent删掉最不重要的记忆。看倒数第二个实验。 接下来我要做的是开发一套episodic memory机制来管理journal。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#17 Re: 大模型的幻觉问题可以解决

帖子 TheMatrix »

wdong 写了: 2025年 2月 15日 15:18 目前默认就是全保留。实在要删减,我有个MSR操作,paper里有写,实验也验证过能在一定程度上干活。但是需要人和agent对话配合。就是你看着journal很长了每次inference要花很多时间(钱),你可以让agent删掉最不重要的记忆。看倒数第二个实验。 接下来我要做的是开发一套episodic memory机制来管理journal。
我知道你想把agent当成一个人类个体,它有人类的lifecycle,所以保持所有任务的记忆是有道理的。

但是上一次任务的context对这次任务能起到有意义的作用吗?再说能不能起作用agent自己也不能判断啊,不还是你给的指令吗?
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24556
注册时间: 2022年 7月 24日 17:21

#18 Re: 大模型的幻觉问题可以解决

帖子 Caravel楼主 »

wdong 写了: 2025年 2月 15日 15:04 不能说更聪明,但是可以说更有经验了。对于很多实际问题,经验很重要。

In-context learning的有效性在chatgpt出来前就已经公认了,不用怀疑。就是学得好学得差的区别。
目前的LLM要有效工作,agent是比较好的方法

未来一些部分应该集成到大模型内部,这样效率更高

你们的product会给个人用户用么?
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24556
注册时间: 2022年 7月 24日 17:21

#19 Re: 大模型的幻觉问题可以解决

帖子 Caravel楼主 »

TheMatrix 写了: 2025年 2月 15日 15:23 我知道你想把agent当成一个人类个体,它有人类的lifecycle,所以保持所有任务的记忆是有道理的。

但是上一次任务的context对这次任务能起到有意义的作用吗?再说能不能起作用agent自己也不能判断啊,不还是你给的指令吗?
除了context,还应该有直接training的,比如一个人做数学题多,不假思索就可以想出思路,估计就是监督学习的结果。
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#20 Re: 大模型的幻觉问题可以解决

帖子 wdong(万事休) »

Caravel 写了: 2025年 2月 15日 15:27 目前的LLM要有效工作,agent是比较好的方法

未来一些部分应该集成到大模型内部,这样效率更高

你们的product会给个人用户用么?
技术上是没问题的,商业上我没有能力去冲consumer market。可以私下给帐号。
回复

回到 “STEM”