世界模型

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#21 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 9日 15:57 2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
这一点指出的是这个方法的“合理性”。概念是有大小的,概念之间是有关系的。不分大小,不管概念之间的关系,硬输入模型,效果绝对是差的。

但是概念大小,概念之间的关系怎么表示?以神经网络的连接来表示吗?怎么连接?怎么架构?不知道。

但是,把世界知识变成语言,从外部来表示概念之间的关系,以数据的形势输入“现有”的语言模型。这是我在这一波AI发展中,屡次被教育了的。

标签/Tags:
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#22 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 9日 16:12 这一点指出的是这个方法的“合理性”。概念是有大小的,概念之间是有关系的。不分大小,不管概念之间的关系,硬输入模型,效果绝对是差的。

但是概念大小,概念之间的关系怎么表示?以神经网络的连接来表示吗?怎么连接?怎么架构?不知道。

但是,把世界知识变成语言,从外部来表示概念之间的关系,以数据的形势输入“现有”的语言模型。这是我在这一波AI发展中,屡次被教育了的。
不是说架构不应该变。神经网络的架构肯定会演进的。但是能以数据解决的,就优先以数据解决。

数据 --> 架构 --> 数据 --> 架构 --> ...

迭代发展。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#23 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 9日 16:17 不是说架构不应该变。神经网络的架构肯定会演进的。但是能以数据解决的,就优先以数据解决。

数据 --> 架构 --> 数据 --> 架构 --> ...

迭代发展。
架构也可以说是算法:

数据 --> 算法 --> 数据 --> 算法 --> ...

也可以。

而且数据之中也是有算法的:怎么prepare数据,这就是很难很难的算法。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#24 Re: 世界模型

帖子 TheMatrix楼主 »

tfusion 写了: 2025年 1月 8日 01:50 哲学家做的就是拍脑袋提出个结论。没有推理,靠的是不完全归纳。

哲学家不知道的是,归纳法无法得出所有真理。何况他们靠的是不完全归纳法。

基本来说,“所有的知识都可以用语言来表达"就是错的。

有无穷知识是任何语言都无法表达的。
你说的这个问题不大。

换个说法:如果我们做一个“所有知识都可以用语言来表达”的假设,那么我们所遗漏的并不多。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#25 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 9日 15:57 我觉得一个方法是:把视觉模型中提炼出来的知识,变成语句,输入到语言模型中。

比如视觉模型看了一个视频之后,提炼出如下的语句:
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话,它不会存在于任何现有的文本之中。

这个方法有很多优点:

1. 首先,它是利用了LLM的成功。把世界知识变成文本,和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
图片

图片

图片

图片

图片

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#26 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 11日 13:17 图片
https://zhuanlan.zhihu.com/p/702811733

图片
上次由 TheMatrix 在 2025年 1月 11日 13:50 修改。
原因: 未提供修改原因
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#27 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 11日 13:50 https://zhuanlan.zhihu.com/p/702811733

图片
图片

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#28 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 11日 13:54 图片
图片

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#29 Re: 世界模型

帖子 TheMatrix楼主 »

头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#30 Re: 世界模型

帖子 TheMatrix楼主 »

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#31 Re: 世界模型

帖子 TheMatrix楼主 »

图片

图片

模型结构目前还没有大的革新。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#32 Re: 世界模型

帖子 TheMatrix楼主 »

图片

这一点感觉不重要:VLM目前阶段还是应该注重理解,也就是构建世界模型。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#33 Re: 世界模型

帖子 TheMatrix楼主 »

图片

看来他并没有看到世界模型的重要性啊。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#34 Re: 世界模型

帖子 TheMatrix楼主 »

图片

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#35 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 11日 14:03
https://arxiv.org/pdf/2403.05525

图片
图片

图片

它是这样的:

先train Vision-Language adaptor,然后把Vision的结果(vector)和语言数据一起(按照3:7的比例)输入到LLM中一起训练。

Vision的结果不是语句,而是vector,所以你不知道它说了什么。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#36 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 9日 15:57 我觉得一个方法是:把视觉模型中提炼出来的知识,变成语句,输入到语言模型中。

比如视觉模型看了一个视频之后,提炼出如下的语句:
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话,它不会存在于任何现有的文本之中。

这个方法有很多优点:

1. 首先,它是利用了LLM的成功。把世界知识变成文本,和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
记录一下几个问题:

1,从视频和图片中生成语句以表达看到的知识。

2,以生成式的方式构建场景。场景应该能够以视频,图片,文字的形式表达。

3,在场景下回答问题。相当于in-context learning,但是这个context可以是网络自己生成的。但是必须能够接受质询。比如问:what do you have in mind? or what do you have in your context?

4,in-context learning应该想办法保持,也就是应该想办法修改weights,相当于continual learning。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#37 Re: 世界模型

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 12日 20:55 记录一下几个问题:

1,从视频和图片中生成语句以表达看到的知识。

2,以生成式的方式构建场景。场景应该能够以视频,图片,文字的形式表达。

3,在场景下回答问题。相当于in-context learning,但是这个context可以是网络自己生成的。但是必须能够接受质询。比如问:what do you have in mind? or what do you have in your context?

4,in-context learning应该想办法保持,也就是应该想办法修改weights,相当于continual learning。
1和2相当于:图片生成语句,和语句生成图片。这两个是逆过程。从大的步骤上看,应该可以用类似autoencoder的方法完善这个两个过程。

autoencoder确实是很精妙的想法:它的目的是tokenize输入,或者说input data representation。是一个encoding的过程。但是它的方法不是直接设计如何encode,而是加一个decode也就是generation的模块。encode完了之后直接decode,看看能不能把input再生成回来。人工label都不需要的,可以说是self-supervised。

语句生成图片,这是现在各大图片模型都在做的。比如diffusion model。把它和图片生成语句联合起来看,这是一个autoencoder的过程。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 484
帖子: 22830
注册时间: 2022年 7月 24日 17:21

#38 Re: 世界模型

帖子 Caravel »

TheMatrix 写了: 2025年 1月 15日 14:54 1和2相当于:图片生成语句,和语句生成图片。这两个是逆过程。从大的步骤上看,应该可以用类似autoencoder的方法完善这个两个过程。

autoencoder确实是很精妙的想法:它的目的是tokenize输入,或者说input data representation。是一个encoding的过程。但是它的方法不是直接设计如何encode,而是加一个decode也就是generation的模块。encode完了之后直接decode,看看能不能把input再生成回来。人工label都不需要的,可以说是self-supervised。

语句生成图片,这是现在各大图片模型都在做的。比如diffusion model。把它和图片生成语句联合起来看,这是一个autoencoder的过程。
世界模型里面混入语言我认为误入歧途了

动物哪怕很低等的动物没有语言可以有很好的世界模型

可以很敏捷的运动捕食

image被转成了某种embedding,这是人工智能最大的秘密

现在还没有比发现
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 248
帖子: 13039
注册时间: 2022年 7月 26日 00:35

#39 Re: 世界模型

帖子 TheMatrix楼主 »

Caravel 写了: 2025年 1月 15日 15:05 世界模型里面混入语言我认为误入歧途了

动物哪怕很低等的动物没有语言可以有很好的世界模型

可以很敏捷的运动捕食

image被转成了某种embedding,这是人工智能最大的秘密

现在还没有比发现
你这当然好。但是你没有用上LLM的成功。

LLM的成功可能相当于水位降低了,别的模型不用上它可能都不行。
回复

回到 “STEM”