学术界修墙很厉害

pantamu · 帖子由 **pantamu** » 2025年 2月 16日 21:17

具体说的那本书？我的印象倒是相反，因为都是手没脏的人写的，写不出漂亮的理论

wass · 帖子由 **wass** » 2025年 2月 16日 21:30

TheMatrix 写了： 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA，但是这两项都不是deepseek首创，可能是它用的好。

我觉得deepseek v3的成功还是在于数据蒸馏，也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据，并不在开源的架构之中，这是商业秘密。

当然，也不是说OpenAI不会数据蒸馏，它能弄出一个o1-mini，效果和o1一样好，说明它早就知道如何数据蒸馏。但是它藏着不发，结果被deepseek截胡了。

据说，o3是用ChatGPT5蒸馏的

wass · 帖子由 **wass** » 2025年 2月 16日 21:31

不愿意发布ChatGPT5就是怕别人用它蒸馏

dfc8622 · 帖子由 **dfc8622（deng）** » 2025年 2月 16日 21:35

麻痹的，这是小学生练习写心得呢，啰啰嗦嗦，还很幼稚

wdong 写了： 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的，中间做了好多比赛，然后又拿比赛代码去做项目。当一群人推进一个领域往外时，大家都是一只半解的，你去看自己的招别人的招，都很傻逼，但是大家都这样也不丢人，偶尔试出来一个管用的招，所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎，但是从来没认为自己不理解，或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架，也就是千把行代码。一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码。然后改着用，去参加比赛。反正一直在泥地里打滚。一有什么新东西出来，离得不太远，大概也能猜出来它的脉络。反正碰到个什么东西，直接去查源代码。

然而我最近再去看原来走过的路，发现一本本几百上千页的教科书已经写出来的。不说教科书，面试题总结都体系化了。现在的人再去学这些东西，先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人，自己可能实战能力就比较有限，但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点，其实是不太串得起来的，实际做事情，或者在论坛上吹牛，也是对着一个点吹。写书就不一样了，这些点得串起来说圆，于是就出来了大量的内容。我自己业余也学物理，看教科书，看得一知半解，这个和我不愿意做习题有关系，但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了，外面的人想进来就难了。

Caravel · 帖子由 **Caravel** » 2025年 2月 16日 22:27

wass 写了： 2025年 2月 16日 21:30 据说，o3是用ChatGPT5蒸馏的

o3是强化学习出来的，可能还借助了大量人工标注的思维链数据。gpt5训练碰到瓶颈了，马上要被命名4.5

goodegg

那都是好几个月前的谣言了，放出来是为了拉投资。

wass 写了： 2025年 2月 16日 21:31 不愿意发布ChatGPT5就是怕别人用它蒸馏

goodegg

现在的方法是雇一些数学，物理方面的博士以上学位的小时工
去帮他们校正。

Caravel 写了： 2025年 2月 16日 22:27 o3是强化学习出来的，可能还借助了大量人工标注的思维链数据。gpt5训练碰到瓶颈了，马上要被命名4.5

赖美豪中

你看作者数量就知道不是用的好，是人海战术了，很显然在大家都在瞎琢磨的阶段，人海战术是最有效的。ds估计全部刷训练的有几千人，我帝根本没有哪家用得起这么多苦力

TheMatrix 写了： 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA，但是这两项都不是deepseek首创，可能是它用的好。

我觉得deepseek v3的成功还是在于数据蒸馏，也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据，并不在开源的架构之中，这是商业秘密。

当然，也不是说OpenAI不会数据蒸馏，它能弄出一个o1-mini，效果和o1一样好，说明它早就知道如何数据蒸馏。但是它藏着不发，结果被deepseek截胡了。

bhold · 帖子由 **bhold** » 2025年 2月 17日 11:55

蒸馏的本质是 copy 权重
把自己的大模型的智慧（训练好的权重）教给你一个小模型（以利于用户使用）叫蒸馏
未经同意去蒸馏别人的大模型叫盗版

DeepSick 的本质是 GPT4 的盗版

jiml · 帖子由 **jiml** » 2025年 2月 17日 13:43

牛河梁写了： 2025年 2月 16日 17:06 你入行还不久。等摸爬滚打个几十年。不用看书也知道怎么回事。

wdong入行很久很久了
印象比较深的一件事，他试图把除法，也就是倒数，引入到DL里。
常规的DL硬件，乘法，加法，不用除法，因为除法器特别贵

jiujianoufu · 帖子由 **jiujianoufu** » 2025年 2月 17日 16:13

我自己也曾经写过教科书，过几年后看，错误很多。后来离开学术界了，也就不会去修订了。

新未名空间

学术界修墙很厉害

#21 Re: 学术界修墙很厉害

#22 Re: 学术界修墙很厉害

#23 Re: 学术界修墙很厉害

#24 Re: 学术界修墙很厉害

#25 Re: 学术界修墙很厉害

#26 Re: 学术界修墙很厉害

#27 Re: 学术界修墙很厉害

#28 Re: 学术界修墙很厉害

#29 Re: 学术界修墙很厉害

#30 Re: 学术界修墙很厉害

#31 Re: 学术界修墙很厉害