学术界修墙很厉害
版主: verdelite, TheMatrix
#1 学术界修墙很厉害
我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
x7

标签/Tags:
#3 Re: 学术界修墙很厉害
在哪里?wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
“ 一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码”
#6 Re: 学术界修墙很厉害
小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的,你把关键要素摸熟了,也就那么回事。deepseek那篇论文,我一点新鲜东西都没看出来。有一件事情大家不太了解,就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据,finetune了deepseek,效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 517
- 帖子: 23774
- 注册时间: 2022年 7月 24日 17:21
#7 Re: 学术界修墙很厉害
和思维链很像wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
原版思维链非常冗长
但是每一步都很容易理解,这个相当于最初的研究过程
后面的学生学,就把思维链简化抛光
变成灌输型监督学习
-
- 论坛元老
Caravel 的博客 - 帖子互动: 517
- 帖子: 23774
- 注册时间: 2022年 7月 24日 17:21
#8 Re: 学术界修墙很厉害
你是说R1也用了一些蒸馏数据?wdong 写了: 2025年 2月 16日 17:31 小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的,你把关键要素摸熟了,也就那么回事。deepseek那篇论文,我一点新鲜东西都没看出来。有一件事情大家不太了解,就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据,finetune了deepseek,效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。
#10 Re: 学术界修墙很厉害
属实。
教科书都是事后诸葛亮,害人不浅。
科学技术停滞,其实都是教科书惹的祸。
CS里面,我最瞧不起的,就是搞理论的,也是同样的原因。一帮屁都不懂,故弄玄虚的,相互吹捧,恬不知耻。
教科书都是事后诸葛亮,害人不浅。
科学技术停滞,其实都是教科书惹的祸。
CS里面,我最瞧不起的,就是搞理论的,也是同样的原因。一帮屁都不懂,故弄玄虚的,相互吹捧,恬不知耻。
wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
x1

上次由 hci 在 2025年 2月 16日 18:24 修改。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 517
- 帖子: 23774
- 注册时间: 2022年 7月 24日 17:21
#13 Re: 学术界修墙很厉害
最好知行合一。这算知行脱节吧。一般人应该都有经验,但少人意识到而已。最严重最有害的是语言学习。wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。
然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
#17 Re: 学术界修墙很厉害
知易行难也罢,知难行易也罢,一旦脱节,都会出问题。不过如版主所说“世人皆傻”,Hinton靠着模糊的仿生思维摸索出一条DNN的道路,可成功之后对理论或者他自己的那些东西的解释就让人啼笑皆非。我都懒得说了。
x1

#19 Re: 学术界修墙很厉害
一面踏踏实实行,或者做工程,一面抬头望星空或者走到云端俯视一下,看一下全貌,最好。人有偏好,就或失于行,或失于知,当然更有大众不懂,就知道盲从。世人皆傻,众生皆苦。就看云卷云舒吧。
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 260
- 帖子: 13161
- 注册时间: 2022年 7月 26日 00:35
#20 Re: 学术界修墙很厉害
deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。wdong 写了: 2025年 2月 16日 17:31 小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的,你把关键要素摸熟了,也就那么回事。deepseek那篇论文,我一点新鲜东西都没看出来。有一件事情大家不太了解,就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据,finetune了deepseek,效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。
我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。
当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
上次由 TheMatrix 在 2025年 2月 16日 21:23 修改。
原因: 未提供修改原因
原因: 未提供修改原因