学术界修墙很厉害
版主: verdelite, TheMatrix
#22 Re: 学术界修墙很厉害
据说,o3是用ChatGPT5蒸馏的TheMatrix 写了: 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。
我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。
当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
#24 Re: 学术界修墙很厉害
麻痹的,这是小学生练习写心得呢,啰啰嗦嗦,还很幼稚
wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 517
- 帖子: 23707
- 注册时间: 2022年 7月 24日 17:21
#28 Re: 学术界修墙很厉害
你看作者数量就知道不是用的好,是人海战术了,很显然在大家都在瞎琢磨的阶段,人海战术是最有效的。ds估计全部刷训练的有几千人,我帝根本没有哪家用得起这么多苦力
TheMatrix 写了: 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。
我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。
当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
If printing money would end poverty, printing diplomas would end stupidity.
#29 Re: 学术界修墙很厉害
蒸馏的本质是 copy 权重
把自己的大模型的智慧(训练好的权重)教给你一个小模型 (以利于用户使用) 叫蒸馏
未经同意去蒸馏别人的大模型叫盗版
DeepSick 的本质是 GPT4 的盗版
把自己的大模型的智慧(训练好的权重)教给你一个小模型 (以利于用户使用) 叫蒸馏
未经同意去蒸馏别人的大模型叫盗版
DeepSick 的本质是 GPT4 的盗版