苹果研究揭露 AI根本不会推理!
(纽约9日讯)苹果近期发表一项具指标性的AI研究报告,震撼揭露目前市场上号称具备“推理能力”的AI模型。
根据苹果的研究,诸如Claude Thinking、DeepSeek-R1、o3-mini的AI模型,实际上只是进行“进阶记忆游戏”,根本谈不上真正的逻辑推理。
根据巨亨网,为了避开常见的训练资料污染问题,苹果研究团队自订了一组从未出现在资料集中的逻辑谜题,用来测试AI模型是否具备真正的理解与推理能力。

(取自Pixabay)
这些谜题设计精巧,能明确区分出模型是“理解内容”还是“死记硬背”。
研究指出,当谜题进入较高复杂度时,这些模型的表现明显崩盘。甚至出现放弃解题、胡乱回答等“自暴自弃”现象。实验结果可归纳为三个阶段:
·低复杂度:普通模型反而表现更稳定
·中等复杂度:标榜“会思考”的模型稍占优势
·高复杂度:所有模型表现接近失效
而现实生活中的问题,绝大多数正好落在“高复杂度”区间。
苹果指出,即便给予这些AI模型明确提示,它们依然无法完成问题解答。例如,模型能成功解出百步的河内塔,却卡在只需4步的渡河谜题,显示 AI并非理解问题本质,而只是根据模式记忆进行猜测。
这项研究直指目前主流大型语言模型(LLM)的根本限制:它们缺乏真正的“逻辑链条构建能力”,无法如人类般进行深层推理。
AI表现起伏大
与此同时,谷歌总执行长桑达尔·皮查伊则创造新词“AJI”,即“人工锯齿智慧”(Artificial Jagged Intelligence),形容AI表现起伏极大,时而令人惊艳,时而荒谬可笑。
他举例说:“有时AI回答让你赞叹不已,下一秒却连草莓里有几个R都数不清。”这种“不稳定性”正是当今AI的真实状态。
尽管如此,桑达尔·皮查伊对AI发展仍抱持乐观。他认为,即便通用人工智能(AGI)无法如预期在2030年实现,AI仍将在知识扩散、气候变迁、医疗研究、经济发展等领域发挥重大影响。
社群反应两极
这份苹果研究,迅速在科技社群掀起论战。一派认为这证实了当前LLM架构不足以支撑AGI的实现;另一派则指出:“推理本身就是一种模式学习”,不应对AI判断太过悲观。
无论是哪种观点,这份研究都明确提醒我们:AI 并非万能,距离“真正会思考”仍有距离。
“JaggedAI.com”等相关关键词已被高价抢注,象征着这波由“锯齿智慧”引发的新一轮AI诠释热潮才刚刚开始。
未来AI发展不只要追求表现,更要正视它的局限。