编程大模型训练的关键还是数据

版主: hci

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 545
帖子: 24305
注册时间: 2022年 7月 24日 17:21

#1 编程大模型训练的关键还是数据

帖子 Caravel楼主 »

帖子 3 分钟前

“hci 写了:
https://metr.org/blog/2025-07-10-early- ... dev-study/

这与去年的研究一致。也与我个人经验一致。“


现在AI写code不行的一个原因还是data 问题

没有debugging chain of thought

推理大模型到2024年才出现也是因为训练数据的问题

人类基本没有这样详细的推理数据

第一波数据是openai花钱请人标注出来的

可能被deepseek用prompt套了一些出来,或者是ds仿照openai的例子自己标注了一些

所以ds也训练成功

后面的人可以用ds输出大量思维链训练,就很简单了

现在编程也是一样,没有debugging过程的详细记录

只能靠人工
fantasist
见习点评
见习点评
帖子互动: 165
帖子: 1400
注册时间: 2022年 7月 24日 19:52

#2 Re: 编程大模型训练的关键还是数据

帖子 fantasist »

现在限制llm的是数据和各种infra,有些任务不容易做成训练数据所以llm生成的答案不对,不是因为智力不够。
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 545
帖子: 24305
注册时间: 2022年 7月 24日 17:21

#3 Re: 编程大模型训练的关键还是数据

帖子 Caravel楼主 »

fantasist 写了: 昨天 22:06 现在限制llm的是数据和各种infra,有些任务不容易做成训练数据所以llm生成的答案不对,不是因为智力不够。
属实,不同的编程环境,java python都需要不同的sand box

现在大厂就是一个环境一个环境训练
回复

回到 “葵花宝典(Programming)”