分页: 1 / 1

#1 (转载)openai 旗舰模型o3的幻觉率是o1的两倍

发表于 : 2025年 4月 27日 11:45
Caravel
此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练,benchmark越好,但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。

#2 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

发表于 : 2025年 4月 27日 11:48
赖美豪中
deepshit推广的恶果,就是大模型互相喂x的蒸馏捷径造成
Caravel 写了: 2025年 4月 27日 11:45 此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练,benchmark越好,但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。

#3 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

发表于 : 2025年 4月 27日 11:51
Caravel
赖美豪中 写了: 2025年 4月 27日 11:48 deepshit推广的恶果,就是大模型互相喂x的蒸馏捷径造成
你也太抬举deepseek了,openai会用DeepSeek的输出?

#4 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

发表于 : 2025年 4月 27日 11:52
赖美豪中
openai学习了deepshit的喂x绝技,用自己的模型互相喂啊
Caravel 写了: 2025年 4月 27日 11:51 你也太抬举deepseek了,openai会用DeepSeek的输出?

#5 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

发表于 : 2025年 4月 27日 12:28
Caravel
赖美豪中 写了: 2025年 4月 27日 11:52 openai学习了deepshit的喂x绝技,用自己的模型互相喂啊
这是强化学习方法的结果

#6 Re: (转载)openai 旗舰模型o3的幻觉率是o1的两倍

发表于 : 2025年 4月 27日 21:33
hci
按下葫芦浮起瓢。

如我八年前预言的一样。

光会调参炼丹,没有心理学直觉,就是这个结果。

Caravel 写了: 2025年 4月 27日 11:45 此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练,benchmark越好,但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。