从最近大模型的发展,以及一些哲学上的思考,我得出这样的看法:
supervised learning永远是突破口。reinforcement learning是supervised learning的一种自动化,机器化,稍微加一些泛化(一般化)。
reinforcement learning不可能不加限制的就自己升级。不加限制的reinforcement learning是指数级的搜索空间,指数级的难度。一件事情如果说是指数级的难度,就等于说“它并没有解决”。而加了限制就不再是指数级的难度,也就等于说“在这个问题上有了进步”。而限制的方法一定来自于supervised learning。
supervised learning永远是人做出的突破。而reinforcement learning是机器做出的加强。这也反映了人和AI的关系,包括未来的人和AI的关系:智能的突破永远是人做出的。
另一方面,突破永远是渐进的。就是一点一点的限制往上加。指数级难度的问题,相当于一个无穷,它里面有无穷多个渐进的限制可加。
supervised learning和reinforcement learning的关系
版主: verdelite, TheMatrix
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 264
- 帖子: 13269
- 注册时间: 2022年 7月 26日 00:35
#2 Re: supervised learning和reinforcement learning的关系
这个差别多了。TheMatrix 写了: 2025年 2月 2日 12:33 从最近大模型的发展,以及一些哲学上的思考,我得出这样的看法:
supervised learning永远是突破口。reinforcement learning是supervised learning的一种自动化,机器化,稍微加一些泛化(一般化)。
reinforcement learning不可能不加限制的就自己升级。不加限制的reinforcement learning是指数级的搜索空间,指数级的难度。一件事情如果说是指数级的难度,就等于说“它并没有解决”。而加了限制就不再是指数级的难度,也就等于说“在这个问题上有了进步”。而限制的方法一定来自于supervised learning。
supervised learning永远是人做出的突破。而reinforcement learning是机器做出的加强。这也反映了人和AI的关系,包括未来的人和AI的关系:智能的突破永远是人做出的。
另一方面,突破永远是渐进的。就是一点一点的限制往上加。指数级难度的问题,相当于一个无穷,它里面有无穷多个渐进的限制可加。
别的不说,训练RF困难的多。就算loss小了或不变小,不知道是不是训练好了。收敛很不稳定。
说白了就是用tensor来代替一个无限大的state machine。 总是有一定不准确性。
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 264
- 帖子: 13269
- 注册时间: 2022年 7月 26日 00:35
#3 Re: supervised learning和reinforcement learning的关系
所以把问题分小永远是对的。一个问题分小到能找到supervised learning的方法,可以说这个问题就有了突破口。TheMatrix 写了: 2025年 2月 2日 12:33 从最近大模型的发展,以及一些哲学上的思考,我得出这样的看法:
supervised learning永远是突破口。reinforcement learning是supervised learning的一种自动化,机器化,稍微加一些泛化(一般化)。
reinforcement learning不可能不加限制的就自己升级。不加限制的reinforcement learning是指数级的搜索空间,指数级的难度。一件事情如果说是指数级的难度,就等于说“它并没有解决”。而加了限制就不再是指数级的难度,也就等于说“在这个问题上有了进步”。而限制的方法一定来自于supervised learning。
supervised learning永远是人做出的突破。而reinforcement learning是机器做出的加强。这也反映了人和AI的关系,包括未来的人和AI的关系:智能的突破永远是人做出的。
另一方面,突破永远是渐进的。就是一点一点的限制往上加。指数级难度的问题,相当于一个无穷,它里面有无穷多个渐进的限制可加。
multi-modal方向上,目前都是直接encoding,然后和语言模型的encoding混合在一起走下一步。但是直接encoding得到的输入vector,到底啥意义不清楚,相当于一个黑盒子。
两年前大家说黑盒子是对的,神经网络你不要管它怎么弄出来的结果,它可以以一种神秘的方式弄出来正确的结果。现在看来这是不对的。有可解释性是进步。no silver bullet。
multi-modal方向上,具体说来就是图片和视频方向上,知识的提取不应该直接encoding,我觉得应该走自然语言。
也就是来了一张图片之后:
1,能用自然语言把它描述出来。比如,“图片中有一个桌子”,“桌子上面有一个苹果和一个香蕉”,“苹果在香蕉的左边”,...
2,反过来,有了这么一堆描述之后,还能把这张图片反向还原回来。
这是multi-modal大问题方向上的一个细分,但是细分之后问题还是太大。
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 264
- 帖子: 13269
- 注册时间: 2022年 7月 26日 00:35
#4 Re: supervised learning和reinforcement learning的关系
图片转文字和文字转图片,是大语言模型上一代的东西,实际上是最先“突破”的,在当时是够用的,但是现在看不够用了。比如图片和视频生成的Sora,写意还行,想完全复原场景就不够了,经常莫名其妙。下一步应该在这方面。TheMatrix 写了: 2025年 2月 2日 12:57
multi-modal方向上,具体说来就是图片和视频方向上,知识的提取不应该直接encoding,我觉得应该走自然语言。
也就是来了一张图片之后:
1,能用自然语言把它描述出来。比如,“图片中有一个桌子”,“桌子上面有一个苹果和一个香蕉”,“苹果在香蕉的左边”,...
2,反过来,有了这么一堆描述之后,还能把这张图片反向还原回来。
当然,还有其他方面,比如AI agent。包括数学和coding。这是应用方面。
基础方面,我觉得应该是multimodal方向。道理很简单,因为人类知识的80%并不是以显式的语言形式存储的。
比如这句话:“一辆车向我疾驰而来,我赶紧躲开,否则它就会把我撞死”。这句话恐怕不存在于任何现有的文本之中,但是这个知识存在于每个人的头脑之中。我觉得这个知识可以通过multimodal的方式学到。
但是为什么要把头脑中这样的知识显式的表达为语言呢?首先知识在头脑中就是以语言的方式存储(或者接近语言的方式)。另外,也是为了借助大语言模型的成功。借着已有的东西才有路走。有路走也代表着渐进的思想,和把指数级难度问题的分解的思想是合拍的。
x1

#5 Re: supervised learning和reinforcement learning的关系
这个很正常,SFT相当于人类的知识传承,后来者站在巨人的肩膀上继续探索,而RL相当于把人丢进荒野里自生自灭。
RL太随机,绝大多数人的行动都是noise,只有极少数脱颖而出。现在训练模型的时候,初始参数是随机的,模型能成长到什么程度无法预测。
RL太随机,绝大多数人的行动都是noise,只有极少数脱颖而出。现在训练模型的时候,初始参数是随机的,模型能成长到什么程度无法预测。