#1 (转载)openai 旗舰模型o3的幻觉率是o1的两倍
发表于 : 2025年 4月 27日 11:45
此帖转自 Caravel 在 军事天地(Military) 的帖子:openai 旗舰模型o3的幻觉率是o1的两倍
大模型越训练,benchmark越好,但是幻觉越严重
“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”
据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。
大模型越训练,benchmark越好,但是幻觉越严重
“OpenAI 的 o3 编码模型在性能提升的同时,幻觉率却高达 33%,比 o1 的两倍还要高。研究团队指出,强化学习可能是导致这一问题的根源,过度优化使得模型在语言表达和自我解释方面变得更差。此外,o3 在推理过程中会虚构某些行为,如声称在特定设备上运行代码。尽管如此,OpenAI 目前尚无法完全解释幻觉率飙升的原因,需要进一步研究。这背后涉及强化学习中的过度优化问题,以及模型在训练过程中产生的怪异语言表达。这些问题不仅影响模型的实用性,还引发了对 AI 模型安全性的担忧。”
据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。