学术界修墙很厉害

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

pantamu
正式会员
正式会员
帖子互动: 0
帖子: 17
注册时间: 2025年 1月 8日 18:01

#21 Re: 学术界修墙很厉害

帖子 pantamu »

具体说的那本书?我的印象倒是相反,因为都是手没脏的人写的,写不出漂亮的理论

标签/Tags:
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 648
帖子: 6636
注册时间: 2022年 7月 23日 22:13

#22 Re: 学术界修墙很厉害

帖子 wass »

TheMatrix 写了: 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。

我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。

当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
据说,o3是用ChatGPT5蒸馏的
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 648
帖子: 6636
注册时间: 2022年 7月 23日 22:13

#23 Re: 学术界修墙很厉害

帖子 wass »

不愿意发布ChatGPT5就是怕别人用它蒸馏
dfc8622(deng)
职业作家
职业作家
帖子互动: 89
帖子: 707
注册时间: 2023年 8月 3日 16:34

#24 Re: 学术界修墙很厉害

帖子 dfc8622(deng) »

麻痹的,这是小学生练习写心得呢,啰啰嗦嗦,还很幼稚
wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。

然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 517
帖子: 23707
注册时间: 2022年 7月 24日 17:21

#25 Re: 学术界修墙很厉害

帖子 Caravel »

wass 写了: 2025年 2月 16日 21:30 据说,o3是用ChatGPT5蒸馏的
o3是强化学习出来的,可能还借助了大量人工标注的思维链数据。gpt5训练碰到瓶颈了,马上要被命名4.5
x1 图片
goodegg(我是大陆人)
职业作家
职业作家
帖子互动: 145
帖子: 591
注册时间: 2023年 7月 23日 03:31

#26 Re: 学术界修墙很厉害

帖子 goodegg(我是大陆人) »

那都是好几个月前的谣言了,放出来是为了拉投资。
wass 写了: 2025年 2月 16日 21:31 不愿意发布ChatGPT5就是怕别人用它蒸馏
goodegg(我是大陆人)
职业作家
职业作家
帖子互动: 145
帖子: 591
注册时间: 2023年 7月 23日 03:31

#27 Re: 学术界修墙很厉害

帖子 goodegg(我是大陆人) »

现在的方法是雇一些数学,物理方面的博士以上学位的小时工
去帮他们校正。
Caravel 写了: 2025年 2月 16日 22:27 o3是强化学习出来的,可能还借助了大量人工标注的思维链数据。gpt5训练碰到瓶颈了,马上要被命名4.5
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3550
帖子: 41584
注册时间: 2022年 9月 6日 12:50

#28 Re: 学术界修墙很厉害

帖子 赖美豪中(my pronouns: ha/ha) »

你看作者数量就知道不是用的好,是人海战术了,很显然在大家都在瞎琢磨的阶段,人海战术是最有效的。ds估计全部刷训练的有几千人,我帝根本没有哪家用得起这么多苦力
TheMatrix 写了: 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。

我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。

当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
If printing money would end poverty, printing diplomas would end stupidity.
bhold
见习作家
见习作家
帖子互动: 55
帖子: 343
注册时间: 2022年 10月 4日 18:41

#29 Re: 学术界修墙很厉害

帖子 bhold »

蒸馏的本质是 copy 权重
把自己的大模型的智慧(训练好的权重)教给你一个小模型 (以利于用户使用) 叫蒸馏
未经同意去蒸馏别人的大模型叫盗版

DeepSick 的本质是 GPT4 的盗版
头像
jiml
著名点评
著名点评
帖子互动: 364
帖子: 3359
注册时间: 2023年 2月 22日 22:50

#30 Re: 学术界修墙很厉害

帖子 jiml »

牛河梁 写了: 2025年 2月 16日 17:06 你入行还不久。等摸爬滚打个几十年。不用看书也知道怎么回事。
wdong入行很久很久了
印象比较深的一件事,他试图把除法,也就是倒数,引入到DL里。
常规的DL硬件,乘法,加法,不用除法,因为除法器特别贵
x1 图片
jiujianoufu
论坛精英
论坛精英
帖子互动: 263
帖子: 6590
注册时间: 2022年 7月 25日 06:54

#31 Re: 学术界修墙很厉害

帖子 jiujianoufu »

我自己也曾经写过教科书,过几年后看,错误很多。后来离开学术界了,也就不会去修订了。
回复

回到 “STEM”