分页: 2 / 2

#21 Re: 世界模型

发表于 : 2025年 1月 9日 16:12
TheMatrix
TheMatrix 写了: 2025年 1月 9日 15:57 2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
这一点指出的是这个方法的“合理性”。概念是有大小的,概念之间是有关系的。不分大小,不管概念之间的关系,硬输入模型,效果绝对是差的。

但是概念大小,概念之间的关系怎么表示?以神经网络的连接来表示吗?怎么连接?怎么架构?不知道。

但是,把世界知识变成语言,从外部来表示概念之间的关系,以数据的形势输入“现有”的语言模型。这是我在这一波AI发展中,屡次被教育了的。

#22 Re: 世界模型

发表于 : 2025年 1月 9日 16:17
TheMatrix
TheMatrix 写了: 2025年 1月 9日 16:12 这一点指出的是这个方法的“合理性”。概念是有大小的,概念之间是有关系的。不分大小,不管概念之间的关系,硬输入模型,效果绝对是差的。

但是概念大小,概念之间的关系怎么表示?以神经网络的连接来表示吗?怎么连接?怎么架构?不知道。

但是,把世界知识变成语言,从外部来表示概念之间的关系,以数据的形势输入“现有”的语言模型。这是我在这一波AI发展中,屡次被教育了的。
不是说架构不应该变。神经网络的架构肯定会演进的。但是能以数据解决的,就优先以数据解决。

数据 --> 架构 --> 数据 --> 架构 --> ...

迭代发展。

#23 Re: 世界模型

发表于 : 2025年 1月 9日 16:21
TheMatrix
TheMatrix 写了: 2025年 1月 9日 16:17 不是说架构不应该变。神经网络的架构肯定会演进的。但是能以数据解决的,就优先以数据解决。

数据 --> 架构 --> 数据 --> 架构 --> ...

迭代发展。
架构也可以说是算法:

数据 --> 算法 --> 数据 --> 算法 --> ...

也可以。

而且数据之中也是有算法的:怎么prepare数据,这就是很难很难的算法。

#24 Re: 世界模型

发表于 : 2025年 1月 9日 16:25
TheMatrix
tfusion 写了: 2025年 1月 8日 01:50 哲学家做的就是拍脑袋提出个结论。没有推理,靠的是不完全归纳。

哲学家不知道的是,归纳法无法得出所有真理。何况他们靠的是不完全归纳法。

基本来说,“所有的知识都可以用语言来表达"就是错的。

有无穷知识是任何语言都无法表达的。
你说的这个问题不大。

换个说法:如果我们做一个“所有知识都可以用语言来表达”的假设,那么我们所遗漏的并不多。

#25 Re: 世界模型

发表于 : 2025年 1月 11日 13:17
TheMatrix
TheMatrix 写了: 2025年 1月 9日 15:57 我觉得一个方法是:把视觉模型中提炼出来的知识,变成语句,输入到语言模型中。

比如视觉模型看了一个视频之后,提炼出如下的语句:
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话,它不会存在于任何现有的文本之中。

这个方法有很多优点:

1. 首先,它是利用了LLM的成功。把世界知识变成文本,和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
图片

图片

图片

图片

图片

图片

#26 Re: 世界模型

发表于 : 2025年 1月 11日 13:50
TheMatrix
TheMatrix 写了: 2025年 1月 11日 13:17 图片
https://zhuanlan.zhihu.com/p/702811733

图片

#27 Re: 世界模型

发表于 : 2025年 1月 11日 13:54
TheMatrix
TheMatrix 写了: 2025年 1月 11日 13:50 https://zhuanlan.zhihu.com/p/702811733

图片
图片

图片

#28 Re: 世界模型

发表于 : 2025年 1月 11日 13:57
TheMatrix
TheMatrix 写了: 2025年 1月 11日 13:54 图片
图片

图片

#29 Re: 世界模型

发表于 : 2025年 1月 11日 14:03
TheMatrix

#30 Re: 世界模型

发表于 : 2025年 1月 11日 14:07
TheMatrix
图片

#31 Re: 世界模型

发表于 : 2025年 1月 11日 14:10
TheMatrix
图片

图片

模型结构目前还没有大的革新。

#32 Re: 世界模型

发表于 : 2025年 1月 11日 14:12
TheMatrix
图片

这一点感觉不重要:VLM目前阶段还是应该注重理解,也就是构建世界模型。

#33 Re: 世界模型

发表于 : 2025年 1月 11日 14:15
TheMatrix
图片

看来他并没有看到世界模型的重要性啊。

#34 Re: 世界模型

发表于 : 2025年 1月 11日 14:16
TheMatrix
图片

图片

#35 Re: 世界模型

发表于 : 2025年 1月 12日 11:16
TheMatrix
TheMatrix 写了: 2025年 1月 11日 14:03
https://arxiv.org/pdf/2403.05525

图片
图片

图片

它是这样的:

先train Vision-Language adaptor,然后把Vision的结果(vector)和语言数据一起(按照3:7的比例)输入到LLM中一起训练。

Vision的结果不是语句,而是vector,所以你不知道它说了什么。

#36 Re: 世界模型

发表于 : 2025年 1月 12日 20:55
TheMatrix
TheMatrix 写了: 2025年 1月 9日 15:57 我觉得一个方法是:把视觉模型中提炼出来的知识,变成语句,输入到语言模型中。

比如视觉模型看了一个视频之后,提炼出如下的语句:
“我的面前是桌子”
“桌子上面有一个苹果”
“桌子上面有一个橙子”
“苹果在橙子的左边”
....

这就是世界知识。这样的知识不变成语句的话,它不会存在于任何现有的文本之中。

这个方法有很多优点:

1. 首先,它是利用了LLM的成功。把世界知识变成文本,和已有的文本一起输入LLM中。不存在heterogeneous的问题了。

2. 把世界知识变成文本,这本身就是对概念大小的一种分析归纳和总结。大的概念就应该更频繁的出现在语句之中。说大和小已经不准确了。“爱”和“苹果”这两个概念谁大?已经不是大小的简单关系了。世界知识文本的整体,就给出了所有概念之间的关系。
记录一下几个问题:

1,从视频和图片中生成语句以表达看到的知识。

2,以生成式的方式构建场景。场景应该能够以视频,图片,文字的形式表达。

3,在场景下回答问题。相当于in-context learning,但是这个context可以是网络自己生成的。但是必须能够接受质询。比如问:what do you have in mind? or what do you have in your context?

4,in-context learning应该想办法保持,也就是应该想办法修改weights,相当于continual learning。

#37 Re: 世界模型

发表于 : 2025年 1月 15日 14:54
TheMatrix
TheMatrix 写了: 2025年 1月 12日 20:55 记录一下几个问题:

1,从视频和图片中生成语句以表达看到的知识。

2,以生成式的方式构建场景。场景应该能够以视频,图片,文字的形式表达。

3,在场景下回答问题。相当于in-context learning,但是这个context可以是网络自己生成的。但是必须能够接受质询。比如问:what do you have in mind? or what do you have in your context?

4,in-context learning应该想办法保持,也就是应该想办法修改weights,相当于continual learning。
1和2相当于:图片生成语句,和语句生成图片。这两个是逆过程。从大的步骤上看,应该可以用类似autoencoder的方法完善这个两个过程。

autoencoder确实是很精妙的想法:它的目的是tokenize输入,或者说input data representation。是一个encoding的过程。但是它的方法不是直接设计如何encode,而是加一个decode也就是generation的模块。encode完了之后直接decode,看看能不能把input再生成回来。人工label都不需要的,可以说是self-supervised。

语句生成图片,这是现在各大图片模型都在做的。比如diffusion model。把它和图片生成语句联合起来看,这是一个autoencoder的过程。

#38 Re: 世界模型

发表于 : 2025年 1月 15日 15:05
Caravel
TheMatrix 写了: 2025年 1月 15日 14:54 1和2相当于:图片生成语句,和语句生成图片。这两个是逆过程。从大的步骤上看,应该可以用类似autoencoder的方法完善这个两个过程。

autoencoder确实是很精妙的想法:它的目的是tokenize输入,或者说input data representation。是一个encoding的过程。但是它的方法不是直接设计如何encode,而是加一个decode也就是generation的模块。encode完了之后直接decode,看看能不能把input再生成回来。人工label都不需要的,可以说是self-supervised。

语句生成图片,这是现在各大图片模型都在做的。比如diffusion model。把它和图片生成语句联合起来看,这是一个autoencoder的过程。
世界模型里面混入语言我认为误入歧途了

动物哪怕很低等的动物没有语言可以有很好的世界模型

可以很敏捷的运动捕食

image被转成了某种embedding,这是人工智能最大的秘密

现在还没有比发现

#39 Re: 世界模型

发表于 : 2025年 1月 15日 15:15
TheMatrix
Caravel 写了: 2025年 1月 15日 15:05 世界模型里面混入语言我认为误入歧途了

动物哪怕很低等的动物没有语言可以有很好的世界模型

可以很敏捷的运动捕食

image被转成了某种embedding,这是人工智能最大的秘密

现在还没有比发现
你这当然好。但是你没有用上LLM的成功。

LLM的成功可能相当于水位降低了,别的模型不用上它可能都不行。