下面是AI翻译,如果你想快速读的话。
人工智能先驱杨立昆认为当今的大语言模型即将过时
https://www.newsweek.com/ai-impact-inte ... ce-2054237
杨立昆谈如何教会人工智能常识
作者:Gabriel Snyder
Newsweek Nexus编辑总监
Trust Project图标
Newsweek是Trust Project成员
询问杨立昆——Meta首席AI科学家、图灵奖获得者、纽约大学数据科学家和人工智能先驱之一——关于OpenAI的ChatGPT、Google的Gemini、Meta的Llama和Anthropic的Claude等大语言模型(LLMs)的未来,他的答案可能会让你吃惊:他认为LLMs将在五年内基本过时。
"我和我的同事们在[Facebook AI Research]和纽约大学所走的路线,如果我们能在三到五年内取得成功,我们将拥有一个更好的系统范式,能够推理和规划,"杨立昆在Newsweek的AI Impact访谈系列最新一期中向Marcus Weldon解释道,描述了他团队最近在联合嵌入预测架构(JEPA)上的工作。他希望这种方法将使当前基于LLM的AI方法过时,因为这些新系统将包含对世界的真正表示,并且他说,它们"可控制,因为你可以给它们目标,而且从构建上讲,它们能做的唯一事情就是完成这些目标。"
他的信念如此强烈,以至于在去年的一次会议上,他建议年轻开发者:"不要研究LLMs。[这些模型]掌握在大公司手中,你们无法带来新价值。你们应该研究下一代AI系统,那些能够克服LLMs局限性的系统。"
这种矛盾很引人注目:如今AI热潮的主要架构师之一也是其最著名的怀疑者之一。尽管公司们争相部署越来越复杂的对话代理,投资者将数十亿美元投入大语言模型初创公司和为其提供动力的数据中心,杨立昆对许多人认为是人工智能前沿的技术却不以为然,尽管他的团队生产了当今使用的主要基础模型之一:Llama。
对杨立昆来说,今天的AI模型——即使是那些带有他智力印记的模型——都是相对专业化的工具,它们在简单、离散的语言空间中运作,而缺乏对人类和动物能够轻松驾驭的物理世界的任何有意义的理解。杨立昆的警告与Rodney Brooks关于他所谓的AI"魔法思维"的警告一致,正如Brooks在早前与Newsweek的对话中所解释的,当AI系统在有限领域表现良好时,我们倾向于将其拟人化,错误地假设它们具有更广泛的能力。
有充分理由听取杨立昆的警示:杨立昆数十年来一直致力于开创支撑当今AI热潮的神经网络技术,是与Geoffrey Hinton和Yoshua Bengio并称的"深度学习三剑客"之一,三人因为对该领域的贡献而在2018年共同获得图灵奖。
杨立昆1960年出生于法国,从小就对人工智能着迷。他在巴黎只有9岁时第一次看到Stanley Kubrick的《2001太空漫游》,这一经历将塑造他的职业轨迹。"它包含了我小时候着迷的所有主题,"杨立昆回忆道。"太空旅行、AI、人类智能的出现。"
最打动年幼杨立昆的是智能可以自我组织的想法——复杂行为可能从相互作用的简单元素中涌现。这一概念将成为他整个职业生涯的指导原则,即使他遇到学术界的阻力。
当杨立昆在20世纪80年代开始他的工作时,神经网络在计算机科学中已经深深失宠。Marvin Minsky和Seymour Papert在1969年的一本书通过强调简单"感知器"(20世纪50年代首次引入的最早期神经网络)的局限性,有效地扼杀了研究兴趣,AI领域也决定性地转向符号和基于规则的系统。
"当时你不能提及神经网络这个词。那只是感知器死亡后的15年,在工程学界,不仅仅是计算机科学界,它仍被视为禁忌,"杨立昆解释道。"但是这个领域被那些不在乎这段历史,或者不了解这段历史的人复兴了,他们在统计物理学、理论神经科学和神经网络之间建立了联系,现在这已经是诺贝尔奖获奖成果了。"
在20世纪80年代中期皮埃尔和玛丽居里大学的博士工作期间,杨立昆对深度学习领域做出了第一个重要贡献,开发了现在著名的反向传播算法的早期形式。所谓的"反向传播"是一种数学技术,它允许神经网络基于在其输出中检测到的错误进行学习,然后这些错误"反向传播"通过神经网络以调整内部权重,从而获得更高精度的输出。这种方法后来成为几乎所有现代神经网络训练的基础,形成了从语音和图像识别系统到聊天机器人和自动驾驶系统等各种系统的学习骨干。
1987年获得博士学位后,杨立昆前往多伦多大学在Geoffrey Hinton指导下进行博士后研究。一年后,他加入了贝尔实验室,在那里他将做出可能是他最具变革性的贡献:卷积神经网络(CNNs)的开发。受哺乳动物视觉皮层结构的启发,CNNs使用专门的层来扫描图像以检测特征——如边缘、纹理和形状——无论它们出现在视野中的何处。这种架构极大地改进了计算机视觉,使机器能够识别模式,尽管位置、比例或方向有变化。
他在贝尔实验室的创新导致了悄然革命化日常系统的实际应用。杨立昆开发的手写识别技术被美国邮政局和银行采用,在20世纪90年代末和21世纪初读取了美国所有支票的10%以上。如今,卷积网络仍然构成现代计算机视觉的基础,支持从面部识别和医学图像分析到自动驾驶车辆感知和增强现实的一切。
在AT&T实验室和NEC研究所工作后,杨立昆于2003年加入纽约大学,他至今仍担任Silver教授。2013年,Mark Zuckerberg聘请他成为Facebook AI研究(FAIR)部门的首任主管,这一角色逐渐发展成为他现在在Meta的首席AI科学家职位。
回到LLMs局限性的话题,杨立昆解释道:"LLM一个接一个地产生标记。它经过固定量的计算来产生一个标记,这显然是系统1——它是反应性的,对吧?没有推理,"这是对Daniel Kahneman具有影响力的框架的引用,该框架区分了人脑的快速、直观思维方法(系统1)和较慢、更深思熟虑的推理方法(系统2)。
当你考虑所谓的莫拉维克悖论时,这种方法的局限性变得清晰——计算机科学家和机器人学家Hans Moravec在20世纪80年代末观察到,相比基本的人类能力如感知和运动,教AI系统高阶技能如下棋或通过标准化测试相对容易。Moravec提出,原因在于源自人类身体如何在世界中导航的技能是数十亿年进化的产物,高度发展到可以被人类自动化的程度,而基于新皮质的推理技能则出现得很晚,需要更多的有意识认知努力才能掌握。然而,对机器来说情况正好相反。简单来说,我们设计机器来帮助我们解决我们缺乏能力的领域,如体力或计算。
LLMs的奇怪悖论是,它们掌握了高阶的语言技能,却没有学习任何基础性的人类能力。"我们有这些语言系统,可以通过律师考试,可以解方程,计算积分,但我们的家用机器人在哪里?"杨立昆问道。"在物理世界中,有一个和猫一样好的机器人吗?我们不认为猫能完成的任务很聪明,但实际上,它们是的。"
这一差距存在是因为语言,尽管复杂,但与混乱、连续的现实世界相比,它在相对受限的领域中运作。"事实证明,语言相对简单,因为它具有强大的统计特性,"杨立昆说。这是一个低维度、离散的空间,"基本上是我们思想的序列化版本。"
最引人注目的是,杨立昆指出,人类能够处理比我们最数据饥渴的高级AI系统更多的数据。"今天的大型LLM大约训练在10的14次方字节的训练数据上。我们中的任何人要阅读完它需要40万年。"这听起来很多,但他指出人类能够接收更大量的视觉数据。
考虑一个清醒了16,000小时的4岁孩子,杨立昆建议。"视神经的带宽大约是每秒一兆字节,给予或取。将其乘以16,000小时,那是大约10的14次方,在四年而不是40万年内。"这引出了一个关键推论:"这清楚地告诉你,我们永远不会仅仅通过训练文本就达到人类水平的智能。这永远不会发生,"杨立昆总结道。
当被问及如何定义智能时,杨立昆的回答一如既往地精确:"你可以将智能视为两三件事。一是技能的集合,但更重要的是,一种快速获取新技能的能力,可能无需任何学习。"他用一个日常例子来说明:"你让你10岁的孩子,'你能清理餐桌吗?'即使是一个从未做过这件事的10岁孩子,或者可能只观察它被做过几次,也有足够的世界背景知识能够在第一次没有训练的情况下完成这项任务。"
这种将现有知识应用于新情况的能力代表了今天的AI系统和人类认知之间的深刻差距。"一个17岁的人可以在大约20小时的练习中学会开车,甚至更少,基本上不会造成任何事故,"杨立昆沉思道。"而我们有数百万小时的人们开车的训练数据,但我们仍然没有自动驾驶汽车。所以这意味着我们缺少了一些非常非常重要的东西。"
像Brooks一样,他强调身体化和与物理世界互动的重要性,杨立昆认为智能与我们建模和预测物理现实的能力密切相关——这是当前语言模型根本无法做到的。这一观点与David Eagleman的描述相呼应,即大脑如何根据其"世界模型"不断运行模拟,将预测与感官输入进行比较。
对杨立昆来说,差异在于我们的心理模型——关于世界如何运作的内部表示,使我们能够预测后果并据此规划行动。人类从婴儿期开始通过观察和与物理世界互动来发展这些模型。婴儿在大约九个月后学会不受支撑的物体会下落(重力);他们逐渐理解即使看不到物体也继续存在(物体永久性)。他观察到,这些模型是分层安排的,从关于即时物理互动的非常低层次预测到能够进行长期规划的高层次概念理解。
杨立昆提供了一个优雅的例子:"假设我们今天在纽约,决定明天早上到巴黎。我们不能完全用肌肉控制来规划整个旅程——这将是一项完全不可行的任务。但在非常高的抽象层次上,我们可以说,'我需要去机场搭飞机。'所以,现在我有一个目标。我怎么去机场?我在纽约,所以我上街招出租车。好的,我怎么上街?好吧,我必须从椅子上站起来,乘电梯下楼,然后..."
这种分层规划依赖于LLMs不具备的心理模型。虽然它们可以产生听起来合理的文本,但它们缺乏物理现实的基础,不能像即使是非常年幼的孩子那样推理新情况。
因此,杨立昆正在开创一种联合嵌入预测架构(JEPA)的替代方法,旨在基于视觉输入创建物理世界的表示,而不是继续扩大语言模型的规模。"你可以训练一个系统通过训练它预测视频中将会发生什么来理解世界如何运作,这是一个很古老的想法,"杨立昆指出。"我以某种形式研究这个至少20年了。"
JEPA背后的基本洞见是,预测不应该发生在原始感官输入的空间中,而应该在抽象表示空间中进行。当人类预测接下来会发生什么时,我们不会在脑海中生成未来的像素完美图像——我们思考的是对象、它们的属性以及它们可能如何互动。
"如果你做天真的事情,这是我和许多同事尝试做的,训练一个大型神经网络预测视频中的下几帧,它不会工作得很好。你得到模糊的预测,因为系统无法准确预测像素对像素会发生什么,"杨立昆解释道。
但最近的突破使不同的基于视频的方法变得可行。在一个名为DINO World Model的实验中,Meta的研究人员采用了一个预训练的编码器,该编码器通过自监督学习从图像中提取特征,然后训练一个预测器来预测这些特征在采取某些行动时会如何变化。
"然后你可以给它一个任务,就是到达某个目标状态,通过优化,规划一系列行动,使你的模型预测你将达到那个目标,"杨立昆说。这使系统能够规划新的行动序列以实现指定目标——一种基本形式的推理和规划。
对于另一个名为V-JEPA(Video-JEPA)的最近模型,杨立昆的团队训练了一个系统来完成部分遮挡的视频。当向系统展示物理上不可能发生的事情——比如物体自发改变形状或在应该可见时消失——系统的预测错误急剧增加,表明它已经隐含地学习了基本的物理原理。
这种方法与语言模型的运作方式有根本区别。这些系统学习在多个抽象层次上表示世界,并预测在不同条件下其表示将如何演变,而不是概率性地预测序列中的下一个标记。
杨立昆认为语言模型在未来可能仍然存在,但它们将服务于更狭窄的目的:"LLMs有一个小作用,基本上是将抽象思想转化为语言。"他做了一个神经学类比:"在人脑中,这是由布罗卡区完成的,就在这里,"他说,指向他左太阳穴附近的一个小区域。"它只在最近几十万年才出现。如果你失去了布罗卡区的[功能],你可以思考,你只是无法表达你的想法。"
尽管他批评今天的AI系统——"我们离达到人类水平的智能还很远。这不会在明天发生。"——杨立昆并不是技术悲观主义者。相反,他相信,"AI将对社会产生类似于15世纪印刷术的变革性影响。"但在他的设想中,影响将通过放大人类智能而非取代它来实现。"人类工作的性质将在概念上和质量上发生变化,"他预测。"我认为它与以前的技术革命没有太大不同,那时物理力量被机器力量所取代,或者一些智力或办公任务被计算机所取代。"
杨立昆与许多AI未来学家——包括他的前导师和联合图灵奖获得者Geoffrey Hinton——的不同之处在于他对存在风险的评估。当Hinton在2023年从谷歌退休时,他警告说:"很快我们就会得到比我们更聪明的东西,这些东西可能会有不良动机并接管控制,这是一个严重的危险,""这不仅仅是一个科幻问题。这是一个严重的问题,可能很快就会到来。"去年12月,Hinton估计当前的AI系统到2030年导致人类灭绝的可能性为10%到20%。
杨立昆强烈反驳这种担忧。"这完全是错误的,"他坚持道,"因为,首先,我认为人们对纯粹的智能给予了太多的信任和权力。"他尖锐地补充道:"看看今天的政治场景,智能是否是如此重要的因素并不清楚。我们中最聪明的人往往不是领导者或首脑。"
杨立昆的乐观部分源于对AI系统实际上能够在物理世界中控制什么的务实评估。虽然电影场景经常描绘AI失控,指挥大量资源并控制关键基础设施,但杨立昆指出,这种能力需要的不仅仅是智能,还需要AI系统不具备的物理控制和访问权限。他还认为AI系统很容易受到约束。"AI系统的好处是你可以设计它,使它不能逃避其护栏。人类可以违反法律,因为我们有自由意志。"
他也对智能和支配力之间存在联系的假设提出质疑,注意到历史上许多最杰出的头脑——如Albert Einstein或Richard Feynman——既不富有也不强大。在他看来,将太多权力归因于单纯的智能忽视了其他可能更危险的人类脆弱性:"作为人类,我们喜欢认为智能就是一切,但一个病毒可以击垮我们,而它们并不特别聪明。"
他想象未来AI系统将形成一种自我调节的生态系统:"这将是一个机器的交互社会,"他预测。如果一个系统行为不当,他说,"你会有其他更聪明的AI系统可以将其击倒。这将像我的智能AI警察对抗你的流氓AI。"
增强智能:对与杨立昆对话的反思
作者:Marcus Weldon,Newsweek AI特约编辑和贝尔实验室名誉主席
杨立昆产生的多学科见解总是让我印象深刻。很少有人能对如此多样化的主题拥有有意义的知识和理解水平,并且毫不畏惧地表达自己的想法。对于一位最有技巧和创新能力的AI实践者既不颂扬也不贬低当前技术,而只是将它们置于适当的背景中,这特别令人耳目一新。对我而言,有五个关键主题脱颖而出,我在这里更深入地探讨:
生成式AI模型从根本上受到限制,因为它们无法表示几乎所有世界方面的连续高维空间
因此,AI的未来不能是扩大这些固有缺陷模型的规模,而必须是构建包含我们世界的抽象表示的模型,这些模型可以被探索,可以预测并可以规划
人类智能,因此,人类般的机器智能是分层的,由许多层次、类型和时间尺度组成,我们目前远未能表示这种丰富的功能和能力
智能不是一切——它当然是一个关键的东西,但它不如有动机的物理、心理或生物力量强大。因此,AI本身不是一种存在性威胁。
未来将由具有系统1和系统2能力并放大人类能力的"机器社会"组成。这将在新的人机社会层次结构中位于我们之下,因为它们受到这些系统内置的护栏约束,只能执行我们的命令。
这些教训补充并放大了我之前与Rodney Brooks和David Eagleman的对话中的教训,形成了一个清晰一致的AI丰富未来的新兴图景。
在这个未来中,人类将转向更多的管理角色,将AI系统作为工具而不是被它们取代。"每个人都将成为某种CEO,或者至少是一个管理者,"杨立昆建议。"我们将看到人类在层次结构中上升。我们下面将有一个层次,那就是那些AI系统。"但关键的是,他澄清道,"它们可能比我们更聪明,但它们将执行我们的命令。"
这种增强而非替代的愿景与Brooks和Eagleman的观点相一致。正如Eagleman告诉Newsweek的:"现在,一切都是关于副驾驶,我们正在向未来迈进,那里将有越来越多的自主系统只是在处理事情。"
为了使这个未来安全且公平地实现,杨立昆强烈主张开放源代码开发AI技术。"开源是必要的,"他主张,因为没有国家会"没有开源模型就拥有AI主权,因为他们可以在其基础上建设并建立自己的主权。"
杨立昆回到今天的AI与他认为最终将取代它们的系统之间的根本区别。当前的语言系统被训练,他说,"只是为了预测文本中的下一个词。"要使这些系统在复杂知识任务上更熟练,"那么就有一个越来越昂贵的微调阶段。所以,你训练它们回答特定类型的问题,但你不训练它们发明新解决方案来解决它们从未面对过的新问题。"
他对比了两种编程方法:系统1方法是用AI生成统计上合理的代码,然后反复测试,进行更改,直到它工作。关于后一种方法,杨立昆说:"这很昂贵,因为它是测试时间计算。它是指数级的——n倍更昂贵,因为可能性树变宽。"相反,人类系统2方法更线性,它由一个明确的目标组成,构建的代码旨在实现该目标,在经验丰富的编码者手中,更可能大部分正确,只有几个错误需要修复。
消除当前AI系统与最佳解决方案之间的这种指数效率差距,这就是为什么杨立昆相信专注于世界模型和规划的方法最终将取代今天的大语言模型,尽管它们在狭窄领域的能力令人印象深刻。"我多次说过,如果在我退休时,我们有像猫一样聪明的系统,我会很高兴,"杨立昆微笑着说。"顺便说一下,退休即将到来,所以我没有太多时间了!"