Scaling laws and CoT范式

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
eflame99楼主
正式写手
正式写手
帖子互动: 28
帖子: 175
注册时间: 2024年 10月 6日 09:25

#1 Scaling laws and CoT范式

帖子 eflame99楼主 »

OpenAI 研究员Jason Wei的演讲总结,感兴趣的可以看下

+2.00 积分 [用户 TheMatrix 给您的打赏]

标签/Tags:
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#2 Re: Scaling laws and CoT范式

帖子 TheMatrix »

eflame99 写了: 2025年 1月 5日 12:30 OpenAI 研究员Jason Wei的演讲总结,感兴趣的可以看下
很好。非常清晰。谢谢。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#3 Re: Scaling laws and CoT范式

帖子 TheMatrix »

eflame99 写了: 2025年 1月 5日 12:30 OpenAI 研究员Jason Wei的演讲总结,感兴趣的可以看下
其实scaling law 和 CoT model (chain of thought) 是两件事。这个视频把它们写在了一起。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#4 Re: Scaling laws and CoT范式

帖子 TheMatrix »

eflame99 写了: 2025年 1月 5日 12:30 OpenAI 研究员Jason Wei的演讲总结,感兴趣的可以看下
CoT (chain of thought) model基本上和prompt engineering差不多。我们把一个问题分解成很小的步骤让LLM来回答,通常能得到好的答案。把大量的这个过程收集起来作为数据喂给LLM进行训练,那么CoT就能自己做这种分解,然后把答案也以分步骤的方式呈现。

这是在训练的阶段,training time。在training time,通常还分两个阶段,

initial training。这个阶段用supervised learning,就是把大量的成功的prompt engineering喂给LLM。有成功的例子,所以这是supervised learning。

fine-tune training。这个阶段用reinforcement learning。这里有reward function,或者human feedback (reward)。

这都是在训练阶段。training time。这个阶段都是用back propagation的。

然后还有推理阶段,inference time。也就是应用阶段。这个阶段不用back propagation,因为已经是训练好的了。

这个视频提到在inference time,给model思考的时间,more "time to think"。这个有很多strategy,基本上相当于让模型搜索更大的空间,所以也需要更长的时间运行。但这还是在inference time,它不需要back propagation。
上次由 TheMatrix 在 2025年 1月 5日 15:47 修改。
原因: 未提供修改原因
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 253
帖子: 13124
注册时间: 2022年 7月 26日 00:35

#5 Re: Scaling laws and CoT范式

帖子 TheMatrix »

eflame99 写了: 2025年 1月 5日 12:30 OpenAI 研究员Jason Wei的演讲总结,感兴趣的可以看下
看9:00 chain of thought的例子:

图片

我突然发现我的贴就非常符合chain of thought。比如这篇:

《世界模型》
viewtopic.php?t=676101

这应该算对chain of thought训练最有价值的文本了。 :D
上次由 TheMatrix 在 2025年 1月 5日 20:39 修改。
原因: 未提供修改原因
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 638
帖子: 6561
注册时间: 2022年 7月 23日 22:13

#6 Re: Scaling laws and CoT范式

帖子 wass »

范式是pattern?
eflame99楼主
正式写手
正式写手
帖子互动: 28
帖子: 175
注册时间: 2024年 10月 6日 09:25

#7 Re: Scaling laws and CoT范式

帖子 eflame99楼主 »

wass 写了: 2025年 1月 8日 08:47 范式是pattern?
paradigm
x1 图片
回复

回到 “STEM”