(转载)看来大模型的pre train非常困难

版主: hci

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 786
帖子: 28966
注册时间: 2022年 7月 24日 17:21

#1 (转载)看来大模型的pre train非常困难

帖子 Caravel楼主 »

此帖转自 Caravel 在 军事天地(Military) 的帖子:看来大模型的pre train非常困难

deepseek奋斗了一年,base model还是未能提升,现在靠后训练提高性能。

无独有偶,前几天有一个媒体爆料openai的GPT5其实是基于去年的gpt4o基座,后面的gpt4.5其他都失败了。

在预训练取得不错的成绩的只有Gemini。


+1.00 积分 [版主 hci 发放的奖励]
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 559
帖子: 10569
注册时间: 2022年 7月 22日 15:29

#2 Re: (转载)看来大模型的pre train非常困难

帖子 hci(海螺子) »

不是困难,而是输入的垃圾太多。

只有谷歌有海量的高质量的数据。

好在预训练并没有那么重要。

Gemini编程还是烂得要死,我只是让他找出现有实现的问题,列个清单,根本没让它写码,它还是上来就写,操。没法用。

Caravel 写了: 2025年 12月 1日 16:47

此帖转自 Caravel 在 军事天地(Military) 的帖子:看来大模型的pre train非常困难

deepseek奋斗了一年,base model还是未能提升,现在靠后训练提高性能。

无独有偶,前几天有一个媒体爆料openai的GPT5其实是基于去年的gpt4o基座,后面的gpt4.5其他都失败了。

在预训练取得不错的成绩的只有Gemini。

上次由 hci 在 2025年 12月 1日 21:21 修改。
原因: 未提供修改原因
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 786
帖子: 28966
注册时间: 2022年 7月 24日 17:21

#3 Re: (转载)看来大模型的pre train非常困难

帖子 Caravel楼主 »

hci 写了: 2025年 12月 1日 21:20

不是困难,而是输入的垃圾太多。

只有谷歌有海量的高质量的数据。

好在预训练并没有那么重要。

Gemini编程还是烂得要死,我只是让他找出现有实现的问题,列个清单,根本没让它写码,它还是上来就写,操。没法用。

谷歌的爬虫爬过的网站,估计已经有大量的人工程序提取的feature。

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 786
帖子: 28966
注册时间: 2022年 7月 24日 17:21

#4 Re: (转载)看来大模型的pre train非常困难

帖子 Caravel楼主 »

hci 写了: 2025年 12月 1日 21:20

不是困难,而是输入的垃圾太多。

只有谷歌有海量的高质量的数据。

好在预训练并没有那么重要。

Gemini编程还是烂得要死,我只是让他找出现有实现的问题,列个清单,根本没让它写码,它还是上来就写,操。没法用。

oai自己的paper说4.5花了4o 10倍的算力但是还是不行

头像
ES.Assassin(红拂)
职业作家
职业作家
帖子互动: 105
帖子: 477
注册时间: 2025年 8月 18日 00:56

#5 Re: (转载)看来大模型的pre train非常困难

帖子 ES.Assassin(红拂) »

你明白现在这些“AI”的本质就不奇怪了

这些“AI”没一点智能,就是更加复杂的匹配和拼凑。

所以算力到一定程度后再加十倍算力也没啥用了。已经基本穷尽了。

https://www.youtube.com/@ES.Assassin
赵客缦胡缨,吴钩霜雪明。
银鞍照白马,飒沓如流星。
十步杀一人,千里不留行。
事了拂衣去,深藏身与名。
讨论交流:https://t.me/+EyXXPVLCL4E5NmIx

头像
omicron
著名点评
著名点评
帖子互动: 140
帖子: 3602
注册时间: 2022年 7月 26日 16:25

#6 Re: (转载)看来大模型的pre train非常困难

帖子 omicron »

码工把宇宙改造成数学为基础的,就像毕达哥拉斯学派期待的那样,AI增加算力就管用了

现在只能在已数学为基础的项目上有点用,必如编程,做数学竞赛题,

但是被人脑这样的非数学元素,掺入大量噪声,引起AI没法发挥效能

码工需要先做上帝,对宇宙和我们社会做数学改造,AI才能成功

头像
TheMatrix
论坛元老
论坛元老
2024年度优秀版主
TheMatrix 的博客
帖子互动: 308
帖子: 14216
注册时间: 2022年 7月 26日 00:35

#7 Re: (转载)看来大模型的pre train非常困难

帖子 TheMatrix »

头像
TheMatrix
论坛元老
论坛元老
2024年度优秀版主
TheMatrix 的博客
帖子互动: 308
帖子: 14216
注册时间: 2022年 7月 26日 00:35

#8 Re: (转载)看来大模型的pre train非常困难

帖子 TheMatrix »

stm32
著名点评
著名点评
帖子互动: 180
帖子: 4460
注册时间: 2022年 7月 26日 12:34

#9 Re: (转载)看来大模型的pre train非常困难

帖子 stm32 »

大模型这种的东西,缺陷明摆着的

没法处理特殊情况,工作的好的,都是比较常见的情况

这个是自身缺陷,刷题的模式就这样的,没法提高,到此为止了

中国说的高分低能是啥意思,就是刷题刷出来的,只会做常见题型

考试变化少,可以把所有题型都刷到,实际工作就不行了,没有真正的解决问题能力

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 786
帖子: 28966
注册时间: 2022年 7月 24日 17:21

#10 Re: (转载)看来大模型的pre train非常困难

帖子 Caravel楼主 »

以前的预先训练就是把互联网数据,加上一些预处理,直接扔给他,以后估计要专门准备一个大型的百科全书,系统性的喂给它,好在现在有上一代大模型,可以帮助自动化,比如拿一本小学课本来,大模型可以扩写,而且可以把书里面的习题都做出来,放到里面

头像
TheMatrix
论坛元老
论坛元老
2024年度优秀版主
TheMatrix 的博客
帖子互动: 308
帖子: 14216
注册时间: 2022年 7月 26日 00:35

#11 Re: (转载)看来大模型的pre train非常困难

帖子 TheMatrix »

Caravel 写了: 2025年 12月 2日 11:18

以前的预先训练就是把互联网数据,加上一些预处理,直接扔给他,以后估计要专门准备一个大型的百科全书,系统性的喂给它,好在现在有上一代大模型,可以帮助自动化,比如拿一本小学课本来,大模型可以扩写,而且可以把书里面的习题都做出来,放到里面

已有的文字内容已经用了90%了。再怎么找也不会翻倍。

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 786
帖子: 28966
注册时间: 2022年 7月 24日 17:21

#12 Re: (转载)看来大模型的pre train非常困难

帖子 Caravel楼主 »

TheMatrix 写了: 2025年 12月 2日 12:30

已有的文字内容已经用了90%了。再怎么找也不会翻倍。

高质量的内容并不多,也许是mid-train,

multi-modal也可以

头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 559
帖子: 10569
注册时间: 2022年 7月 22日 15:29

#13 Re: (转载)看来大模型的pre train非常困难

帖子 hci(海螺子) »

逻辑是什么?逻辑就是一种硬性的筛子。

内在语义几何空间的硬性限制其实很少。所以能从语料中学习到的逻辑是很少的,同时也不是硬性的。

大量预训练这条路已经走到头了,几个AI头面人物现在都意识到了。

马克屁都不懂。

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#14 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

Caravel 写了: 2025年 12月 1日 16:47

此帖转自 Caravel 在 军事天地(Military) 的帖子:看来大模型的pre train非常困难

deepseek奋斗了一年,base model还是未能提升,现在靠后训练提高性能。

无独有偶,前几天有一个媒体爆料openai的GPT5其实是基于去年的gpt4o基座,后面的gpt4.5其他都失败了。

在预训练取得不错的成绩的只有Gemini。

那是很正常的,我現在訓練12M的超小模型,搞了半個月dataset augmentation,結果卻越來越差。。。AI的門檻其實很高。。。

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#15 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

Caravel 写了: 2025年 12月 1日 23:18

oai自己的paper说4.5花了4o 10倍的算力但是还是不行

那是肯定的,我調整後的dataset訓練時間多了一倍,精度下降一半,現在還不知道原因。。。

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#16 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

AI讀博士需要大量高質量的數據集,這個才是瓶頸,能挖掘的好數據集基本都用完了,生產新的數據集效率很低。。。

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#17 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

stm32 写了: 2025年 12月 2日 11:06

大模型这种的东西,缺陷明摆着的

没法处理特殊情况,工作的好的,都是比较常见的情况

这个是自身缺陷,刷题的模式就这样的,没法提高,到此为止了

中国说的高分低能是啥意思,就是刷题刷出来的,只会做常见题型

考试变化少,可以把所有题型都刷到,实际工作就不行了,没有真正的解决问题能力

這個術語叫out of network dataset generalization

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#18 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

Caravel 写了: 2025年 12月 2日 11:18

以前的预先训练就是把互联网数据,加上一些预处理,直接扔给他,以后估计要专门准备一个大型的百科全书,系统性的喂给它,好在现在有上一代大模型,可以帮助自动化,比如拿一本小学课本来,大模型可以扩写,而且可以把书里面的习题都做出来,放到里面

這個術語叫dataset augmentation和dataset cartography

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#19 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

TheMatrix 写了: 2025年 12月 2日 12:30

已有的文字内容已经用了90%了。再怎么找也不会翻倍。

可以,這是五年前的研究熱點,contrast set、checklist、adversarial challenge、partial ablation。。。

你能想到的五年前別人都想到了,普通人無法想像現在AI papers的激烈程度。。。

magagop
著名点评
著名点评
帖子互动: 274
帖子: 4246
注册时间: 2024年 12月 5日 17:35

#20 Re: (转载)看来大模型的pre train非常困难

帖子 magagop »

Caravel 写了: 2025年 12月 2日 12:50

高质量的内容并不多,也许是mid-train,

multi-modal也可以

這些是兩年前的paper熱點

回复

回到 “葵花宝典(Programming)”