世界模型

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#1 世界模型

帖子 TheMatrix楼主 »

世界模型就是场景的构建。

什么是场景的构建?就是比如看到一张照片,啪,就把所有的物体都标注出来,然后物体之间的位置关系,3D建模表达出来,然后还有物体之间的速度关系,谁朝着谁在走,以多大的速度,什么时候相撞,这些关系,都要表达出来。

这是一个对世界的映照。在神经网络中的映照。可以叫faithful representation。

但是在神经网络中的映照到底什么样?这个不知道。

你“打开”一个数字神经网络,或者打开一个生物大脑神经网络,它对世界的映照,和世界本身,完全不一样。用眼睛根本看不出有任何相同之处。

世界模型是推理的基础。这里的推理是reasoning,不是inference。
上次由 TheMatrix 在 2025年 1月 2日 10:45 修改。
原因: 未提供修改原因

标签/Tags:
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#2 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 10:43 世界模型就是场景的构建。

什么是场景的构建?就是比如看到一张照片,啪,就把所有的物体都标注出来,然后物体之间的位置关系,3D建模表达出来,然后还有物体之间的速度关系,谁朝着谁在走,以多大的速度,什么时候相撞,这些关系,都要表达出来。

这是一个对世界的映照。在神经网络中的映照。可以叫faithful representation。

但是在神经网络中的映照到底什么样?这个不知道。

你“打开”一个数字神经网络,或者打开一个生物大脑神经网络,它对世界的映照,和世界本身,完全不一样。用眼睛根本看不出有任何相同之处。

世界模型是推理的基础。这里的推理是reasoning,不是inference。
所谓理解世界,就是要把世界建模表达出来。

建模不是传统意义上的建模,传统建模比如什么电子工程系的建模,一个物体表达为一个点,一切都简化。不是这样建模。

神经网络中的建模,里面隐藏的信息非常非常多。比如把物体都标注出来,这就很难,目前没有任何神经网络能完美地做到这一点。meta前段时间有一片论文叫segment of everything,大概是目前最好的。但是这才哪到哪啊?太少。

当然,在标注物体的过程中,神经网络已经存储了很多信息,但是不在表达的层面上。这些也是信息,也是节点,可以内部命名。只不过它的构建方式不一定对。

什么是正确的构建方式?这个谁也不知道。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#3 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 11:08 所谓理解世界,就是要把世界建模表达出来。

建模不是传统意义上的建模,传统建模比如什么电子工程系的建模,一个物体表达为一个点,一切都简化。不是这样建模。

神经网络中的建模,里面隐藏的信息非常非常多。比如把物体都标注出来,这就很难,目前没有任何神经网络能完美地做到这一点。meta前段时间有一片论文叫segment of everything,大概是目前最好的。但是这才哪到哪啊?太少。

当然,在标注物体的过程中,神经网络已经存储了很多信息,但是不在表达的层面上。这些也是信息,也是节点,可以内部命名。只不过它的构建方式不一定对。

什么是正确的构建方式?这个谁也不知道。
大语言模型里有没有世界模型?

比如这么一句话:“一辆汽车高速向我驶来,我赶紧避让了一下”。

从这句话中,以及很多类似的话中,大语言模型可以提炼出这么一个逻辑:
一辆车,高速,向我驶来 ----> 我需要避让一下。

大概就这么多了。

但是我不知道我为什么需要避让一下。因为这个世界的文本中,没有一句话明确地说:
“一辆汽车高速向我驶来,我如果不避让的话,它就会撞死我。”
上次由 TheMatrix 在 2025年 1月 2日 11:48 修改。
原因: 未提供修改原因
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#4 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 11:45 大语言模型里有没有世界模型?

比如这么一句话:“一辆汽车高速向我驶来,我赶紧避让了一下”。

从这句话中,以及很多类似的话中,大语言模型可以提炼出这么一个逻辑:
一辆车,高速,向我驶来 ----> 我需要避让一下。

大概就这么多了。

但是我不知道我为什么需要避让一下。因为这个世界的文本中,没有一句话明确地说:
“一辆汽车高速向我驶来,我如果不避让的话,它就会撞死我。”
CoT (chain of thought) 模型不能代替世界模型。

CoT模型本质上是prompt engineering。大语言模型中已有的知识,你可以通过合适问题把它问出来。但是大语言模型中没有的知识,你是问不出来的。怎么问也问不出来。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#5 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 11:45 大语言模型里有没有世界模型?

比如这么一句话:“一辆汽车高速向我驶来,我赶紧避让了一下”。

从这句话中,以及很多类似的话中,大语言模型可以提炼出这么一个逻辑:
一辆车,高速,向我驶来 ----> 我需要避让一下。

大概就这么多了。

但是我不知道我为什么需要避让一下。因为这个世界的文本中,没有一句话明确地说:
“一辆汽车高速向我驶来,我如果不避让的话,它就会撞死我。”
哲学意义上来讲,所有的知识都可以用语言来表达。

但这并不意味着所有的知识都 *已经* 用语言来表达了。

事实上,大量的人类知识,不是以语言的方式表达的。它们以不知道什么样的方式存储在人脑神经系统中。世界模型就是要构建这种模型,存储这种知识。它肯定还是在神经网络这个架构之中 - 这个我觉得还是没有问题的。
头像
verdelite(众傻之傻)
论坛元老
论坛元老
帖子互动: 889
帖子: 22310
注册时间: 2022年 7月 21日 23:33

#6 Re: 世界模型

帖子 verdelite(众傻之傻) »

你这世界模型,是牛顿的绝对坐标系模型。

在动物大脑里有局部环境模型,是以自己(头部?)为坐标原点的。老鼠头脑里有grid cells, border cells. 前者标记自己所处环境网格,后者标记自己是不是处于边界上。这两种细胞的发现好像已经得过了诺贝尔奖。我约2016年附近研究AI时看过这些论文。
没有光子;也没有量子能级,量子跃迁,量子叠加,量子塌缩和量子纠缠。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#7 Re: 世界模型

帖子 TheMatrix楼主 »

verdelite 写了: 2025年 1月 2日 14:16 你这世界模型,是牛顿的绝对坐标系模型。

在动物大脑里有局部环境模型,是以自己(头部?)为坐标原点的。老鼠头脑里有grid cells, border cells. 前者标记自己所处环境网格,后者标记自己是不是处于边界上。这两种细胞的发现好像已经得过了诺贝尔奖。我约2016年附近研究AI时看过这些论文。
这里也有:

viewtopic.php?t=631740

头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#8 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 10:43 世界模型就是场景的构建。

什么是场景的构建?就是比如看到一张照片,啪,就把所有的物体都标注出来,然后物体之间的位置关系,3D建模表达出来,然后还有物体之间的速度关系,谁朝着谁在走,以多大的速度,什么时候相撞,这些关系,都要表达出来。

这是一个对世界的映照。在神经网络中的映照。可以叫faithful representation。

但是在神经网络中的映照到底什么样?这个不知道。

你“打开”一个数字神经网络,或者打开一个生物大脑神经网络,它对世界的映照,和世界本身,完全不一样。用眼睛根本看不出有任何相同之处。

世界模型是推理的基础。这里的推理是reasoning,不是inference。
世界模型和逻辑推理,基本上很难区分。这也是为什么说世界模型是推理的基础。

也许世界模型 *就是* 推理。推理就是世界模型。

因为推理要以“概念”为单元,而概念就是世界模型中的节点。概念有大有小,小的概念甚至没有名字,就是神经网络中的一个...什么东西。而大的概念就是场景。里面有好多东西的,这就是大的概念。

推理怎么推?
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#9 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 14:06 CoT (chain of thought) 模型不能代替世界模型。

CoT模型本质上是prompt engineering。大语言模型中已有的知识,你可以通过合适问题把它问出来。但是大语言模型中没有的知识,你是问不出来的。怎么问也问不出来。
CoT模型也可以说是divide and conquer,把一个大问题分成很多小问题,启发式的问,总有一条路径能得到最好的答案。前提是大模型里有答案。

divide and conquer也是著名的难题。因为划分问题本身就是一个指数难度的问题。

我看到的CoT的训练方法是,先由人来分解出步骤,可以多种划分。然后以这些划分方式为目标训练CoT模型。
上次由 TheMatrix 在 2025年 1月 2日 15:16 修改。
原因: 未提供修改原因
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#10 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 15:15 CoT模型也可以说是divide and conquer,把一个大问题分成很多小问题,启发式的问,总有一条路径能得到最好的答案。前提是大模型里有答案。

divide and conquer也是著名的难题。因为划分问题本身就是一个指数难度的问题。

我看到的CoT的训练方法是,先由人来分解出步骤,可以多种划分。然后以这些划分方式为目标训练CoT模型。
现在有3个问题/方向:
1,世界模型
2,神经网络架构中去掉back propagation
3,CoT

CoT是最容易的路。另外两个都不知道怎么弄。

CoT最容易,而成果又很丰厚。所以这是一个好的方向。low hanging fruit要先摘完。

还有low hanging fruit,这本身就是一件好事。

但是low hanging fruit,能摘着摘着量变到质变,摘出AGI来?我觉得too good to be true。
头像
mrmaja(Tacoma)
知名作家
知名作家
帖子互动: 109
帖子: 1119
注册时间: 2022年 7月 30日 12:25

#11 Re: 世界模型

帖子 mrmaja(Tacoma) »

TheMatrix 写了: 2025年 1月 2日 10:43 世界模型就是场景的构建。

什么是场景的构建?就是比如看到一张照片,啪,就把所有的物体都标注出来,然后物体之间的位置关系,3D建模表达出来,然后还有物体之间的速度关系,谁朝着谁在走,以多大的速度,什么时候相撞,这些关系,都要表达出来。

这是一个对世界的映照。在神经网络中的映照。可以叫faithful representation。

但是在神经网络中的映照到底什么样?这个不知道。

你“打开”一个数字神经网络,或者打开一个生物大脑神经网络,它对世界的映照,和世界本身,完全不一样。用眼睛根本看不出有任何相同之处。

世界模型是推理的基础。这里的推理是reasoning,不是inference。
人脑中刻在基因组里的这个模型是从20亿年前真核生物出现开始通过无数代的进化形成的,deepmind 23年一篇paper:
https://arxiv.org/abs/2301.07608

Human-Timescale Adaptation in an Open-Ended Task Space

说这个人类通过进化得到的这个模型(通用智能)是可以通过目前的Machine learning framework 的RL domain in-
context learning capability 获得的。
上次由 mrmaja 在 2025年 1月 2日 21:28 修改。
头像
mrmaja(Tacoma)
知名作家
知名作家
帖子互动: 109
帖子: 1119
注册时间: 2022年 7月 30日 12:25

#12 Re: 世界模型

帖子 mrmaja(Tacoma) »

从眼斑到眼睛
在6亿年前寒武纪生命大爆发时期,出现了一些原始动物,它们拥有可以感受光的蛋白斑块,这种光感受器被称为眼斑。这些眼斑能够感受亮度、分辨明暗,但不能分辨光源的方向。后来,多细胞生物中进化出了多细胞眼斑。
图片

之后,生活在光线充足环境中的动物,其眼斑逐渐演化,凹陷成一个浅杯状的凹坑,通过识别射到眼斑特定细胞的光线入射角来判断光源方向。这些低等生物能够根据光敏细胞感知的光强,调节其昼夜生理与行为节律,但它们的光敏细胞不能产生图像。例如,蜗牛有光敏细胞,却不能成像,因此蜗牛仅能区分明暗,以避免阳光直射而脱水。

再后来,眼斑演化形成的凹坑逐渐加深,开口逐渐变小,形成眼孔(即后来眼睛的瞳孔)。光感受器细胞数量增加,形成了一个像针孔相机的原始眼睛,能够模糊区分周边物体的形状。
图片

为保护眼斑,动物眼孔上进化出了包裹眼腔透明液体的透明细胞层。进化中透明层逐渐增厚,演化为眼睛的晶状体,这不仅优化了色彩过滤、阻止了有害辐射,还提高了折射指数。
02

不同的眼睛,不同的世界

不同的“色彩斑斓”

人类有感知红色、绿色和蓝色的视锥细胞。大多数家养动物,包括我们豢(huàn)养的家猫、家狗只有感知绿色和蓝色的视锥细胞,因此它们是红绿色盲,只能将红色和橙色看成浓度不同的绿色。所以,我们看到的色彩斑斓的世界在猫狗的眼里是一个深浅不同的绿调世界。

野生鹿类也如此,它们对蓝光敏感,如果猎手穿的是蓝色牛仔裤,对它们来说就像霓虹灯一样耀眼,但是它们看不见物体的细节,不能分辨不同色彩斑块的迷彩服。鹿的瞳孔大、眼框宽,虹膜反光色素层使得它们有惊人的感知运动物体的能力。
此外,尽管这些动物分辨物体细节的能力不及人类,但它们眼睛中的视杆细胞较多,具有更好的夜视能力。

不同的视野角度

静态视野是指动物在头部和眼睛静止时可以看到的视图,分为双目前视野和单眼侧视野。不同的动物所具有的视野也不相同。大多数食肉动物双眼位于大脑前部,进化出视域宽阔的双目前视野,能感知深度,有利于它们狩猎。但需要注意,同样是前视野动物,猫的双目视野比狗宽,狗的盲区却比猫小。
图片

而其他动物,尤其是被捕食的动物,为了最大限度地扩大视野,它们的两只眼睛往往位于头部的两侧,且是以单眼侧视野为主。广阔的视野使它们能够更及时地发现接近的捕食者。
图片

眼镜猴
有些动物可以转动头部或眼睛以获得更广阔的视野,例如眼镜猴,它的视野范围很窄,眼睛太大不能在眼窝里旋转,但它的头部可以转动180度,这让它视野很开阔。变色龙有突出的眼睛,可以独立转动,因此它们拥有360度全方位视野。
图片
变色龙
03

好视力的鸟类动物

鸟类有4种视锥细胞,能看见紫外线,是脊椎动物中视力最好的。猛禽的视力至少比人类好8~10倍,例如在照明良好、背景反衬鲜明时,金雕在高空能看见3千米以外的一只野兔,而游隼能发现在8千米以外的一只鸽子。

图片
猫头鹰最引人注目的是它的一双朝前的大眼睛。猫头鹰的视野大约是110度,其中70度左右是双目视觉。相比之下,人类的视野是180度,其中140度是双目视觉。猫头鹰的眼球固定在颅骨中,不能转动,只能直视前方。但它的头的转动角度可以达到270度,足以弥补这一缺陷。

寒武纪时期,动物就产生了视觉细胞,以适应生存环境。不同的动物,它们眼中的世界各不相同,其眼睛的结构与功能也千差万别。

本文综合整理自《知识就是力量》杂志,原标题《眼睛进化之路与千姿百态的世界》,作者蒋志刚,

+2.00 积分 [用户 TheMatrix 给您的打赏]
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#13 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 2日 11:45 大语言模型里有没有世界模型?

比如这么一句话:“一辆汽车高速向我驶来,我赶紧避让了一下”。

从这句话中,以及很多类似的话中,大语言模型可以提炼出这么一个逻辑:
一辆车,高速,向我驶来 ----> 我需要避让一下。

大概就这么多了。

但是我不知道我为什么需要避让一下。因为这个世界的文本中,没有一句话明确地说:
“一辆汽车高速向我驶来,我如果不避让的话,它就会撞死我。”
当然,这个逻辑不在纯语言模型中,但是它可能在视觉模型中,各种视频。

所以搞多模态的学习。理论上应该是可以学到世界模型的。

但是,这个数据量太大了。要把人类日常生活都录下来,喂给AI学习?

所以需要:
1,挑选数据。
2,更有效的crunch data。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#14 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 5日 15:31 当然,这个逻辑不在纯语言模型中,但是它可能在视觉模型中,各种视频。

所以搞多模态的学习。理论上应该是可以学到世界模型的。

但是,这个数据量太大了。要把人类日常生活都录下来,喂给AI学习?

所以需要:
1,挑选数据。
2,更有效的crunch data。
挑选数据也不容易。什么是好数据,什么是有价值的数据,什么是价值。这是需要有一个视角的。

更有效率的crunch data,就是要训练得更快,更省资源。这需要神经网络架构上的改变。
头像
tfusion
论坛支柱
论坛支柱
帖子互动: 678
帖子: 9014
注册时间: 2022年 7月 25日 15:42

#15 Re: 世界模型

帖子 tfusion »

TheMatrix 写了: 2025年 1月 2日 14:16 哲学意义上来讲,所有的知识都可以用语言来表达。

但这并不意味着所有的知识都 *已经* 用语言来表达了。

事实上,大量的人类知识,不是以语言的方式表达的。它们以不知道什么样的方式存储在人脑神经系统中。世界模型就是要构建这种模型,存储这种知识。它肯定还是在神经网络这个架构之中 - 这个我觉得还是没有问题的。
哲学家做的就是拍脑袋提出个结论。没有推理,靠的是不完全归纳。

哲学家不知道的是,归纳法无法得出所有真理。何况他们靠的是不完全归纳法。

基本来说,“所有的知识都可以用语言来表达"就是错的。

有无穷知识是任何语言都无法表达的。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#16 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 7日 17:37
世界知识的大部分在视觉中。那按照LLM成功的方法,不就应该大量喂视频数据吗?开始的时候用supervised learning,李飞飞做了VSI-Bench,其中的问题就是问:
1,视频中有多少个苹果?
2,苹果在香蕉的左边还是右边?
3,苹果距离香蕉远,还是距离茶杯远?

这样的视频数据,再加上这样的问题答案,这样训练不就可以(理论上)重复LLM的成功吗?
世界知识的大部分在视觉中 - 我觉得这是对的。

这是从知识点来说。

知识点也就是概念。

但是概念有大有小。

如果不管大小都看作一个知识点的话,那么世界知识的大部分在视觉中。应该是这么回事。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#17 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 8日 17:31 世界知识的大部分在视觉中 - 我觉得这是对的。

这是从知识点来说。

知识点也就是概念。

但是概念有大有小。

如果不管大小都看作一个知识点的话,那么世界知识的大部分在视觉中。应该是这么回事。
从概念的大小来说,语言模型中的概念都是大的,视觉模型中的概念都是小的。

多模态训练最大的问题就是,大小概念的size不统一,全当成相同的点的话,效果不好。

从语言模型来看,love is just a word,但是人的直觉告诉我们这不对。我认为人的直觉是对的。

视觉模型中一个点是一个token,语言模型中一个word是一个token。

这两个不应该弄到一起去。
头像
StMichael
论坛点评
论坛点评
帖子互动: 70
帖子: 2163
注册时间: 2022年 7月 23日 09:43

#18 Re: 世界模型

帖子 StMichael »

物自体
头像
StMichael
论坛点评
论坛点评
帖子互动: 70
帖子: 2163
注册时间: 2022年 7月 23日 09:43

#19 Re: 世界模型

帖子 StMichael »

训练AI要重现物理世界

重力等宏观物理参数至少要模拟出来

这样,AI才能理解物理世界
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#20 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 8日 17:49 从概念的大小来说,语言模型中的概念都是大的,视觉模型中的概念都是小的。

多模态训练最大的问题就是,大小概念的size不统一,全当成相同的点的话,效果不好。

从语言模型来看,love is just a word,但是人的直觉告诉我们这不对。我认为人的直觉是对的。

视觉模型中一个点是一个token,语言模型中一个word是一个token。

这两个不应该弄到一起去。
我觉得一个方法是:把视觉模型中提炼出来的知识,变成语句,输入到语言模型中。

比如视觉模型看了一个视频之后,提炼出如下的语句:
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话,它不会存在于任何现有的文本之中。

这个方法有很多优点:

1. 首先,它是利用了LLM的成功。把世界知识变成文本,和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
回复

回到 “STEM”