#21 Re: 学术界修墙很厉害
发表于 : 2025年 2月 16日 21:17
具体说的那本书?我的印象倒是相反,因为都是手没脏的人写的,写不出漂亮的理论
据说,o3是用ChatGPT5蒸馏的TheMatrix 写了: 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。
我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。
当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
o3是强化学习出来的,可能还借助了大量人工标注的思维链数据。gpt5训练碰到瓶颈了,马上要被命名4.5
TheMatrix 写了: 2025年 2月 16日 21:12 deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。
我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。
当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
wdong入行很久很久了