分页: 1 / 1
#1 LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:04
由 TheMatrix
#2 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:07
由 TheMatrix
他的大意应该是:目前大资本都在LLM里,2025可能没有大投入在reinforcement learning里。但是未来要实现AGI,reinforcement learning是必须的。
#3 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:14
由 TheMatrix
#4 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:14
由 wildthing
TheMatrix 写了: 2025年 1月 7日 16:07
他的大意应该是:目前大资本都在LLM里,2025可能没有大投入在reinforcement learning里。但是未来要实现AGI,reinforcement learning是必须的。
RL 非常难做。不是可以靠堆机器实现增加功能的
#5 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:16
由 TheMatrix
他的意思大概就是:单靠大语言模型 + reinforcement learning 是得不到AGI的。但是多模态大模型 + reinforcement learning是可以得到AGI的。
有一定道理。因为世界模型不全在语言之中,但是多模态就基本上包含了全部的世界模型。
#6 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:26
由 TheMatrix
wildthing 写了: 2025年 1月 7日 16:14
RL 非常难做。不是可以靠堆机器实现增加功能的
难做就会有平台期。一时间大家找不到路,都在那憋着。然后有一个人找到路,再来一波爆发期。
这样很好。这样才有个人智慧的贡献空间。
现在处在scaling law之中,基本上是线性增长,堆机器和资本,这个阶段个人做不了任何事。
#7 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:45
由 TheMatrix
TheMatrix 写了: 2025年 1月 7日 16:16
他的意思大概就是:单靠大语言模型 + reinforcement learning 是得不到AGI的。但是多模态大模型 + reinforcement learning是可以得到AGI的。
有一定道理。因为世界模型不全在语言之中,但是多模态就基本上包含了全部的世界模型。
这是李飞飞的:Thinking in Space.
https://arxiv.org/pdf/2412.14171

#8 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 16:57
由 mmking
RL的瓶颈从被发明开始就有了
#9 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 17:00
由 wdong
TheMatrix 写了: 2025年 1月 7日 16:26
难做就会有平台期。一时间大家找不到路,都在那憋着。然后有一个人找到路,再来一波爆发期。
这样很好。这样才有个人智慧的贡献空间。
现在处在scaling law之中,基本上是线性增长,堆机器和资本,这个阶段个人做不了任何事。
高见!
个人认为至少目前形态的RL不是出路,因为这里面钱投得已经不少了。未来的出路可能是某种形势的RL,但是需要碰。
#10 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 17:28
由 TheMatrix
飞飞的方向是对的啊:

#11 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 7日 17:37
由 TheMatrix
wdong 写了: 2025年 1月 7日 17:00
高见!
个人认为至少目前形态的RL不是出路,因为这里面钱投得已经不少了。未来的出路可能是某种形势的RL,但是需要碰。
谢谢。
李飞飞那篇visual-spatial intelligence的文章你看过了吧?
我刚看完。我觉得她的方向是对的。
世界知识的大部分在视觉中。那按照LLM成功的方法,不就应该大量喂视频数据吗?开始的时候用supervised learning,李飞飞做了VSI-Bench,其中的问题就是问:
1,视频中有多少个苹果?
2,苹果在香蕉的左边还是右边?
3,苹果距离香蕉远,还是距离茶杯远?
这样的视频数据,再加上这样的问题答案,这样训练不就可以(理论上)重复LLM的成功吗?
#12 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 10日 14:23
由 knockwood

外行完全看不懂。就问问特斯拉的cybertaxi跟机器人是不是用现在的模型就足够训练出来了?哪位大牛回答一下呗
#13 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 10日 14:43
由 TheMatrix
knockwood 写了: 2025年 1月 10日 14:23

外行完全看不懂。就问问特斯拉的cybertaxi跟机器人是不是用现在的模型就足够训练出来了?哪位大牛回答一下呗
现在最火的AI模型是LLM,大语言模型,以及多模态大语言模型。就是OpenAI搞的那些。
这和自动驾驶以及机器人不是一个赛道。机器人主要还是传统的工业控制模型,自动驾驶是传统视觉模型。目前阶段它们和大语言模型应该是很不同的。但是未来它们可能会基于大语言模型,再加上各自的控制部分,也就是AI agent的道路。
#14 Re: LLM 与 reinforcement learning
发表于 : 2025年 1月 10日 15:41
由 knockwood
looks promising.