（转载）openai 旗舰模型o3的幻觉率是o1的两倍

Caravel · 帖子由 **Caravel楼主** » 2025年 4月 27日 11:45

此帖转自 Caravel 在军事天地（Military）的帖子：openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练，benchmark越好，但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时，幻觉率却高达 33%，比 o1 的两倍还要高。研究团队指出，强化学习可能是导致这一问题的根源，过度优化使得模型在语言表达和自我解释方面变得更差。此外，o3 在推理过程中会虚构某些行为，如声称在特定设备上运行代码。尽管如此，OpenAI 目前尚无法完全解释幻觉率飙升的原因，需要进一步研究。这背后涉及强化学习中的过度优化问题，以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性，还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示，在 PersonQA 评估中（一个旨在引发幻觉的测试集），o3 模型的幻觉率达到 33%，而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下，之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外，因为通常情况下，新一代 AI 模型在幻觉控制方面都会有所改进。

赖美豪中

deepshit推广的恶果，就是大模型互相喂x的蒸馏捷径造成

Caravel 写了： 2025年 4月 27日 11:45 此帖转自 Caravel 在军事天地（Military）的帖子：openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练，benchmark越好，但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时，幻觉率却高达 33%，比 o1 的两倍还要高。研究团队指出，强化学习可能是导致这一问题的根源，过度优化使得模型在语言表达和自我解释方面变得更差。此外，o3 在推理过程中会虚构某些行为，如声称在特定设备上运行代码。尽管如此，OpenAI 目前尚无法完全解释幻觉率飙升的原因，需要进一步研究。这背后涉及强化学习中的过度优化问题，以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性，还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示，在 PersonQA 评估中（一个旨在引发幻觉的测试集），o3 模型的幻觉率达到 33%，而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下，之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外，因为通常情况下，新一代 AI 模型在幻觉控制方面都会有所改进。

Caravel · 帖子由 **Caravel楼主** » 2025年 4月 27日 11:51

赖美豪中写了： 2025年 4月 27日 11:48 deepshit推广的恶果，就是大模型互相喂x的蒸馏捷径造成

你也太抬举deepseek了，openai会用DeepSeek的输出？

赖美豪中

openai学习了deepshit的喂x绝技，用自己的模型互相喂啊

Caravel 写了： 2025年 4月 27日 11:51 你也太抬举deepseek了，openai会用DeepSeek的输出？

Caravel · 帖子由 **Caravel楼主** » 2025年 4月 27日 12:28

赖美豪中写了： 2025年 4月 27日 11:52 openai学习了deepshit的喂x绝技，用自己的模型互相喂啊

这是强化学习方法的结果

hci

按下葫芦浮起瓢。

如我八年前预言的一样。

光会调参炼丹，没有心理学直觉，就是这个结果。

Caravel 写了： 2025年 4月 27日 11:45 此帖转自 Caravel 在军事天地（Military）的帖子：openai 旗舰模型o3的幻觉率是o1的两倍

大模型越训练，benchmark越好，但是幻觉越严重

“OpenAI 的 o3 编码模型在性能提升的同时，幻觉率却高达 33%，比 o1 的两倍还要高。研究团队指出，强化学习可能是导致这一问题的根源，过度优化使得模型在语言表达和自我解释方面变得更差。此外，o3 在推理过程中会虚构某些行为，如声称在特定设备上运行代码。尽管如此，OpenAI 目前尚无法完全解释幻觉率飙升的原因，需要进一步研究。这背后涉及强化学习中的过度优化问题，以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性，还引发了对 AI 模型安全性的担忧。”

据 OpenAI 官方 system card 显示，在 PersonQA 评估中（一个旨在引发幻觉的测试集），o3 模型的幻觉率达到 33%，而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下，之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外，因为通常情况下，新一代 AI 模型在幻觉控制方面都会有所改进。

新未名空间

（转载）openai 旗舰模型o3的幻觉率是o1的两倍

#1 （转载）openai 旗舰模型o3的幻觉率是o1的两倍

#2 Re: （转载）openai 旗舰模型o3的幻觉率是o1的两倍

#3 Re: （转载）openai 旗舰模型o3的幻觉率是o1的两倍

#4 Re: （转载）openai 旗舰模型o3的幻觉率是o1的两倍

#5 Re: （转载）openai 旗舰模型o3的幻觉率是o1的两倍

#6 Re: （转载）openai 旗舰模型o3的幻觉率是o1的两倍