supervised learning和reinforcement learning的关系

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13269
注册时间: 2022年 7月 26日 00:35

#1 supervised learning和reinforcement learning的关系

帖子 TheMatrix楼主 »

从最近大模型的发展,以及一些哲学上的思考,我得出这样的看法:

supervised learning永远是突破口。reinforcement learning是supervised learning的一种自动化,机器化,稍微加一些泛化(一般化)。

reinforcement learning不可能不加限制的就自己升级。不加限制的reinforcement learning是指数级的搜索空间,指数级的难度。一件事情如果说是指数级的难度,就等于说“它并没有解决”。而加了限制就不再是指数级的难度,也就等于说“在这个问题上有了进步”。而限制的方法一定来自于supervised learning。

supervised learning永远是人做出的突破。而reinforcement learning是机器做出的加强。这也反映了人和AI的关系,包括未来的人和AI的关系:智能的突破永远是人做出的。

另一方面,突破永远是渐进的。就是一点一点的限制往上加。指数级难度的问题,相当于一个无穷,它里面有无穷多个渐进的限制可加。

标签/Tags:
wildthing
著名点评
著名点评
帖子互动: 270
帖子: 4482
注册时间: 2022年 7月 22日 14:25

#2 Re: supervised learning和reinforcement learning的关系

帖子 wildthing »

TheMatrix 写了: 2025年 2月 2日 12:33 从最近大模型的发展,以及一些哲学上的思考,我得出这样的看法:

supervised learning永远是突破口。reinforcement learning是supervised learning的一种自动化,机器化,稍微加一些泛化(一般化)。

reinforcement learning不可能不加限制的就自己升级。不加限制的reinforcement learning是指数级的搜索空间,指数级的难度。一件事情如果说是指数级的难度,就等于说“它并没有解决”。而加了限制就不再是指数级的难度,也就等于说“在这个问题上有了进步”。而限制的方法一定来自于supervised learning。

supervised learning永远是人做出的突破。而reinforcement learning是机器做出的加强。这也反映了人和AI的关系,包括未来的人和AI的关系:智能的突破永远是人做出的。

另一方面,突破永远是渐进的。就是一点一点的限制往上加。指数级难度的问题,相当于一个无穷,它里面有无穷多个渐进的限制可加。
这个差别多了。

别的不说,训练RF困难的多。就算loss小了或不变小,不知道是不是训练好了。收敛很不稳定。
说白了就是用tensor来代替一个无限大的state machine。 总是有一定不准确性。
司马光在《资治通鉴》中说日本人:'知小礼而无大义,拘小节而无大德。重末节而无廉耻,畏威而不怀德。强必盗寇,弱必卑伏'。
康熙皇帝在《康熙朝起居注》中这样评论日本人:“倭子国,最是反复无常之国。其人,甚卑贱,不知世上有恩谊,只一味慑于武威……故尔,不得对其有稍许好颜色。”

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13269
注册时间: 2022年 7月 26日 00:35

#3 Re: supervised learning和reinforcement learning的关系

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 2月 2日 12:33 从最近大模型的发展,以及一些哲学上的思考,我得出这样的看法:

supervised learning永远是突破口。reinforcement learning是supervised learning的一种自动化,机器化,稍微加一些泛化(一般化)。

reinforcement learning不可能不加限制的就自己升级。不加限制的reinforcement learning是指数级的搜索空间,指数级的难度。一件事情如果说是指数级的难度,就等于说“它并没有解决”。而加了限制就不再是指数级的难度,也就等于说“在这个问题上有了进步”。而限制的方法一定来自于supervised learning。

supervised learning永远是人做出的突破。而reinforcement learning是机器做出的加强。这也反映了人和AI的关系,包括未来的人和AI的关系:智能的突破永远是人做出的。

另一方面,突破永远是渐进的。就是一点一点的限制往上加。指数级难度的问题,相当于一个无穷,它里面有无穷多个渐进的限制可加。
所以把问题分小永远是对的。一个问题分小到能找到supervised learning的方法,可以说这个问题就有了突破口。

multi-modal方向上,目前都是直接encoding,然后和语言模型的encoding混合在一起走下一步。但是直接encoding得到的输入vector,到底啥意义不清楚,相当于一个黑盒子。

两年前大家说黑盒子是对的,神经网络你不要管它怎么弄出来的结果,它可以以一种神秘的方式弄出来正确的结果。现在看来这是不对的。有可解释性是进步。no silver bullet。

multi-modal方向上,具体说来就是图片和视频方向上,知识的提取不应该直接encoding,我觉得应该走自然语言。

也就是来了一张图片之后:
1,能用自然语言把它描述出来。比如,“图片中有一个桌子”,“桌子上面有一个苹果和一个香蕉”,“苹果在香蕉的左边”,...
2,反过来,有了这么一堆描述之后,还能把这张图片反向还原回来。

这是multi-modal大问题方向上的一个细分,但是细分之后问题还是太大。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13269
注册时间: 2022年 7月 26日 00:35

#4 Re: supervised learning和reinforcement learning的关系

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 2月 2日 12:57
multi-modal方向上,具体说来就是图片和视频方向上,知识的提取不应该直接encoding,我觉得应该走自然语言。

也就是来了一张图片之后:
1,能用自然语言把它描述出来。比如,“图片中有一个桌子”,“桌子上面有一个苹果和一个香蕉”,“苹果在香蕉的左边”,...
2,反过来,有了这么一堆描述之后,还能把这张图片反向还原回来。
图片转文字和文字转图片,是大语言模型上一代的东西,实际上是最先“突破”的,在当时是够用的,但是现在看不够用了。比如图片和视频生成的Sora,写意还行,想完全复原场景就不够了,经常莫名其妙。下一步应该在这方面。

当然,还有其他方面,比如AI agent。包括数学和coding。这是应用方面。

基础方面,我觉得应该是multimodal方向。道理很简单,因为人类知识的80%并不是以显式的语言形式存储的。

比如这句话:“一辆车向我疾驰而来,我赶紧躲开,否则它就会把我撞死”。这句话恐怕不存在于任何现有的文本之中,但是这个知识存在于每个人的头脑之中。我觉得这个知识可以通过multimodal的方式学到。

但是为什么要把头脑中这样的知识显式的表达为语言呢?首先知识在头脑中就是以语言的方式存储(或者接近语言的方式)。另外,也是为了借助大语言模型的成功。借着已有的东西才有路走。有路走也代表着渐进的思想,和把指数级难度问题的分解的思想是合拍的。
x1 图片
fantasist
见习点评
见习点评
帖子互动: 180
帖子: 1460
注册时间: 2022年 7月 24日 19:52

#5 Re: supervised learning和reinforcement learning的关系

帖子 fantasist »

这个很正常,SFT相当于人类的知识传承,后来者站在巨人的肩膀上继续探索,而RL相当于把人丢进荒野里自生自灭。
RL太随机,绝大多数人的行动都是noise,只有极少数脱颖而出。现在训练模型的时候,初始参数是随机的,模型能成长到什么程度无法预测。
回复

回到 “STEM”