(转载)openai 旗舰模型o3的幻觉率是o1的两倍

版主: hci

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 555
帖子: 24471
注册时间: 2022年 7月 24日 17:21

#1 (转载)openai 旗舰模型o3的幻觉率是o1的两倍

帖子 Caravel楼主 »

此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练,benchmark越好,但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3748
帖子: 42399
注册时间: 2022年 9月 6日 12:50

#2 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

帖子 赖美豪中(my pronouns: ha/ha) »

deepshit推广的恶果,就是大模型互相喂x的蒸馏捷径造成
Caravel 写了: 2025年 4月 27日 11:45 此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练,benchmark越好,但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。
If printing money would end poverty, printing diplomas would end stupidity.
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 555
帖子: 24471
注册时间: 2022年 7月 24日 17:21

#3 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

帖子 Caravel楼主 »

赖美豪中 写了: 2025年 4月 27日 11:48 deepshit推广的恶果,就是大模型互相喂x的蒸馏捷径造成
你也太抬举deepseek了,openai会用DeepSeek的输出?
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3748
帖子: 42399
注册时间: 2022年 9月 6日 12:50

#4 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

帖子 赖美豪中(my pronouns: ha/ha) »

openai学习了deepshit的喂x绝技,用自己的模型互相喂啊
Caravel 写了: 2025年 4月 27日 11:51 你也太抬举deepseek了,openai会用DeepSeek的输出?
If printing money would end poverty, printing diplomas would end stupidity.
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 555
帖子: 24471
注册时间: 2022年 7月 24日 17:21

#5 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

帖子 Caravel楼主 »

赖美豪中 写了: 2025年 4月 27日 11:52 openai学习了deepshit的喂x绝技,用自己的模型互相喂啊
这是强化学习方法的结果
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 461
帖子: 9909
注册时间: 2022年 7月 22日 15:29

#6 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

帖子 hci(海螺子) »

按下葫芦浮起瓢。

如我八年前预言的一样。

光会调参炼丹,没有心理学直觉,就是这个结果。

Caravel 写了: 2025年 4月 27日 11:45 此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练,benchmark越好,但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。
上次由 hci 在 2025年 4月 27日 21:34 修改。
原因: 未提供修改原因
回复

回到 “葵花宝典(Programming)”