世界模型

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 9日 16:12

TheMatrix 写了： 2025年 1月 9日 15:57 2. 把世界知识变成文本，这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大？已经不是大小的简单关系了。世界知识文本的整体，就给出了所有概念之间的关系。

这一点指出的是这个方法的“合理性”。概念是有大小的，概念之间是有关系的。不分大小，不管概念之间的关系，硬输入模型，效果绝对是差的。

但是概念大小，概念之间的关系怎么表示？以神经网络的连接来表示吗？怎么连接？怎么架构？不知道。

但是，把世界知识变成语言，从外部来表示概念之间的关系，以数据的形势输入“现有”的语言模型。这是我在这一波AI发展中，屡次被教育了的。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 9日 16:17

TheMatrix 写了： 2025年 1月 9日 16:12 这一点指出的是这个方法的“合理性”。概念是有大小的，概念之间是有关系的。不分大小，不管概念之间的关系，硬输入模型，效果绝对是差的。

但是概念大小，概念之间的关系怎么表示？以神经网络的连接来表示吗？怎么连接？怎么架构？不知道。

但是，把世界知识变成语言，从外部来表示概念之间的关系，以数据的形势输入“现有”的语言模型。这是我在这一波AI发展中，屡次被教育了的。

不是说架构不应该变。神经网络的架构肯定会演进的。但是能以数据解决的，就优先以数据解决。

数据 --> 架构 --> 数据 --> 架构 --> ...

迭代发展。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 9日 16:21

TheMatrix 写了： 2025年 1月 9日 16:17 不是说架构不应该变。神经网络的架构肯定会演进的。但是能以数据解决的，就优先以数据解决。

数据 --> 架构 --> 数据 --> 架构 --> ...

迭代发展。

架构也可以说是算法：

数据 --> 算法 --> 数据 --> 算法 --> ...

也可以。

而且数据之中也是有算法的：怎么prepare数据，这就是很难很难的算法。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 9日 16:25

tfusion 写了： 2025年 1月 8日 01:50 哲学家做的就是拍脑袋提出个结论。没有推理，靠的是不完全归纳。

哲学家不知道的是，归纳法无法得出所有真理。何况他们靠的是不完全归纳法。

基本来说，“所有的知识都可以用语言来表达"就是错的。

有无穷知识是任何语言都无法表达的。

你说的这个问题不大。

换个说法：如果我们做一个“所有知识都可以用语言来表达”的假设，那么我们所遗漏的并不多。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 13:17

TheMatrix 写了： 2025年 1月 9日 15:57 我觉得一个方法是：把视觉模型中提炼出来的知识，变成语句，输入到语言模型中。

比如视觉模型看了一个视频之后，提炼出如下的语句：
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话，它不会存在于任何现有的文本之中。

这个方法有很多优点：

1. 首先，它是利用了LLM的成功。把世界知识变成文本，和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本，这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大？已经不是大小的简单关系了。世界知识文本的整体，就给出了所有概念之间的关系。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 13:50

TheMatrix 写了： 2025年 1月 11日 13:17

https://zhuanlan.zhihu.com/p/702811733

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 13:54

TheMatrix 写了： 2025年 1月 11日 13:50 https://zhuanlan.zhihu.com/p/702811733

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 13:57

TheMatrix 写了： 2025年 1月 11日 13:54

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 14:03

https://arxiv.org/pdf/2404.16821

https://arxiv.org/pdf/2403.05525

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 14:07

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 14:10

模型结构目前还没有大的革新。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 14:12

这一点感觉不重要：VLM目前阶段还是应该注重理解，也就是构建世界模型。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 14:15

看来他并没有看到世界模型的重要性啊。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 11日 14:16

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 12日 11:16

TheMatrix 写了： 2025年 1月 11日 14:03
https://arxiv.org/pdf/2403.05525

它是这样的：

先train Vision-Language adaptor，然后把Vision的结果(vector)和语言数据一起（按照3:7的比例）输入到LLM中一起训练。

Vision的结果不是语句，而是vector，所以你不知道它说了什么。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 12日 20:55

TheMatrix 写了： 2025年 1月 9日 15:57 我觉得一个方法是：把视觉模型中提炼出来的知识，变成语句，输入到语言模型中。

比如视觉模型看了一个视频之后，提炼出如下的语句：
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话，它不会存在于任何现有的文本之中。

这个方法有很多优点：

1. 首先，它是利用了LLM的成功。把世界知识变成文本，和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本，这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大？已经不是大小的简单关系了。世界知识文本的整体，就给出了所有概念之间的关系。

记录一下几个问题：

1，从视频和图片中生成语句以表达看到的知识。

2，以生成式的方式构建场景。场景应该能够以视频，图片，文字的形式表达。

3，在场景下回答问题。相当于in-context learning，但是这个context可以是网络自己生成的。但是必须能够接受质询。比如问：what do you have in mind? or what do you have in your context?

4，in-context learning应该想办法保持，也就是应该想办法修改weights，相当于continual learning。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 15日 14:54

TheMatrix 写了： 2025年 1月 12日 20:55 记录一下几个问题：

1，从视频和图片中生成语句以表达看到的知识。

2，以生成式的方式构建场景。场景应该能够以视频，图片，文字的形式表达。

3，在场景下回答问题。相当于in-context learning，但是这个context可以是网络自己生成的。但是必须能够接受质询。比如问：what do you have in mind? or what do you have in your context?

4，in-context learning应该想办法保持，也就是应该想办法修改weights，相当于continual learning。

1和2相当于：图片生成语句，和语句生成图片。这两个是逆过程。从大的步骤上看，应该可以用类似autoencoder的方法完善这个两个过程。

autoencoder确实是很精妙的想法：它的目的是tokenize输入，或者说input data representation。是一个encoding的过程。但是它的方法不是直接设计如何encode，而是加一个decode也就是generation的模块。encode完了之后直接decode，看看能不能把input再生成回来。人工label都不需要的，可以说是self-supervised。

语句生成图片，这是现在各大图片模型都在做的。比如diffusion model。把它和图片生成语句联合起来看，这是一个autoencoder的过程。

Caravel · 帖子由 **Caravel** » 2025年 1月 15日 15:05

TheMatrix 写了： 2025年 1月 15日 14:54 1和2相当于：图片生成语句，和语句生成图片。这两个是逆过程。从大的步骤上看，应该可以用类似autoencoder的方法完善这个两个过程。

autoencoder确实是很精妙的想法：它的目的是tokenize输入，或者说input data representation。是一个encoding的过程。但是它的方法不是直接设计如何encode，而是加一个decode也就是generation的模块。encode完了之后直接decode，看看能不能把input再生成回来。人工label都不需要的，可以说是self-supervised。

语句生成图片，这是现在各大图片模型都在做的。比如diffusion model。把它和图片生成语句联合起来看，这是一个autoencoder的过程。

世界模型里面混入语言我认为误入歧途了

动物哪怕很低等的动物没有语言可以有很好的世界模型

可以很敏捷的运动捕食

image被转成了某种embedding，这是人工智能最大的秘密

现在还没有比发现

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 15日 15:15

Caravel 写了： 2025年 1月 15日 15:05 世界模型里面混入语言我认为误入歧途了

动物哪怕很低等的动物没有语言可以有很好的世界模型

可以很敏捷的运动捕食

image被转成了某种embedding，这是人工智能最大的秘密

现在还没有比发现

你这当然好。但是你没有用上LLM的成功。

LLM的成功可能相当于水位降低了，别的模型不用上它可能都不行。

新未名空间

世界模型

#21 Re: 世界模型

#22 Re: 世界模型

#23 Re: 世界模型

#24 Re: 世界模型

#25 Re: 世界模型

#26 Re: 世界模型

#27 Re: 世界模型

#28 Re: 世界模型

#29 Re: 世界模型

#30 Re: 世界模型

#31 Re: 世界模型

#32 Re: 世界模型

#33 Re: 世界模型

#34 Re: 世界模型

#35 Re: 世界模型

#36 Re: 世界模型

#37 Re: 世界模型

#38 Re: 世界模型

#39 Re: 世界模型