学术界修墙很厉害

wdong

我自己是跟着deep learning一步步走到现在的，中间做了好多比赛，然后又拿比赛代码去做项目。当一群人推进一个领域往外时，大家都是一只半解的，你去看自己的招别人的招，都很傻逼，但是大家都这样也不丢人，偶尔试出来一个管用的招，所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎，但是从来没认为自己不理解，或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架，也就是千把行代码。一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码。然后改着用，去参加比赛。反正一直在泥地里打滚。一有什么新东西出来，离得不太远，大概也能猜出来它的脉络。反正碰到个什么东西，直接去查源代码。

然而我最近再去看原来走过的路，发现一本本几百上千页的教科书已经写出来的。不说教科书，面试题总结都体系化了。现在的人再去学这些东西，先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人，自己可能实战能力就比较有限，但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点，其实是不太串得起来的，实际做事情，或者在论坛上吹牛，也是对着一个点吹。写书就不一样了，这些点得串起来说圆，于是就出来了大量的内容。我自己业余也学物理，看教科书，看得一知半解，这个和我不愿意做习题有关系，但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了，外面的人想进来就难了。

牛河梁

你入行还不久。等摸爬滚打个几十年。不用看书也知道怎么回事。

wass · 帖子由 **wass** » 2025年 2月 16日 17:13

wdong 写了： 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的，中间做了好多比赛，然后又拿比赛代码去做项目。当一群人推进一个领域往外时，大家都是一只半解的，你去看自己的招别人的招，都很傻逼，但是大家都这样也不丢人，偶尔试出来一个管用的招，所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎，但是从来没认为自己不理解，或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架，也就是千把行代码。一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码。然后改着用，去参加比赛。反正一直在泥地里打滚。一有什么新东西出来，离得不太远，大概也能猜出来它的脉络。反正碰到个什么东西，直接去查源代码。

然而我最近再去看原来走过的路，发现一本本几百上千页的教科书已经写出来的。不说教科书，面试题总结都体系化了。现在的人再去学这些东西，先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人，自己可能实战能力就比较有限，但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点，其实是不太串得起来的，实际做事情，或者在论坛上吹牛，也是对着一个点吹。写书就不一样了，这些点得串起来说圆，于是就出来了大量的内容。我自己业余也学物理，看教科书，看得一知半解，这个和我不愿意做习题有关系，但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了，外面的人想进来就难了。

在哪里？

“ 一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码”

wdong

wass 写了： 2025年 2月 16日 17:13 在哪里？

“ 一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码”

huggingface的transformers库里，到llama 3.3的inference代码都在。没有训练代码，但是模型架构是完整的。

wass · 帖子由 **wass** » 2025年 2月 16日 17:29

wdong 写了： 2025年 2月 16日 17:16 huggingface的transformers库里，到llama 3.3的inference代码都在。没有训练代码，但是模型架构是完整的。

想看的是训练的代码

wdong

小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的，你把关键要素摸熟了，也就那么回事。deepseek那篇论文，我一点新鲜东西都没看出来。有一件事情大家不太了解，就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据，finetune了deepseek，效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。

Caravel · 帖子由 **Caravel** » 2025年 2月 16日 18:01

wdong 写了： 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的，中间做了好多比赛，然后又拿比赛代码去做项目。当一群人推进一个领域往外时，大家都是一只半解的，你去看自己的招别人的招，都很傻逼，但是大家都这样也不丢人，偶尔试出来一个管用的招，所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎，但是从来没认为自己不理解，或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架，也就是千把行代码。一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码。然后改着用，去参加比赛。反正一直在泥地里打滚。一有什么新东西出来，离得不太远，大概也能猜出来它的脉络。反正碰到个什么东西，直接去查源代码。

然而我最近再去看原来走过的路，发现一本本几百上千页的教科书已经写出来的。不说教科书，面试题总结都体系化了。现在的人再去学这些东西，先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人，自己可能实战能力就比较有限，但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点，其实是不太串得起来的，实际做事情，或者在论坛上吹牛，也是对着一个点吹。写书就不一样了，这些点得串起来说圆，于是就出来了大量的内容。我自己业余也学物理，看教科书，看得一知半解，这个和我不愿意做习题有关系，但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了，外面的人想进来就难了。

和思维链很像

原版思维链非常冗长

但是每一步都很容易理解，这个相当于最初的研究过程

后面的学生学，就把思维链简化抛光

变成灌输型监督学习

Caravel · 帖子由 **Caravel** » 2025年 2月 16日 18:05

wdong 写了： 2025年 2月 16日 17:31 小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的，你把关键要素摸熟了，也就那么回事。deepseek那篇论文，我一点新鲜东西都没看出来。有一件事情大家不太了解，就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据，finetune了deepseek，效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。

你是说R1也用了一些蒸馏数据？

wdong

必然用了。

hci

属实。

教科书都是事后诸葛亮，害人不浅。

科学技术停滞，其实都是教科书惹的祸。

CS里面，我最瞧不起的，就是搞理论的，也是同样的原因。一帮屁都不懂，故弄玄虚的，相互吹捧，恬不知耻。

wdong 写了： 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的，中间做了好多比赛，然后又拿比赛代码去做项目。当一群人推进一个领域往外时，大家都是一只半解的，你去看自己的招别人的招，都很傻逼，但是大家都这样也不丢人，偶尔试出来一个管用的招，所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎，但是从来没认为自己不理解，或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架，也就是千把行代码。一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码。然后改着用，去参加比赛。反正一直在泥地里打滚。一有什么新东西出来，离得不太远，大概也能猜出来它的脉络。反正碰到个什么东西，直接去查源代码。

然而我最近再去看原来走过的路，发现一本本几百上千页的教科书已经写出来的。不说教科书，面试题总结都体系化了。现在的人再去学这些东西，先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人，自己可能实战能力就比较有限，但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点，其实是不太串得起来的，实际做事情，或者在论坛上吹牛，也是对着一个点吹。写书就不一样了，这些点得串起来说圆，于是就出来了大量的内容。我自己业余也学物理，看教科书，看得一知半解，这个和我不愿意做习题有关系，但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了，外面的人想进来就难了。

Caravel · 帖子由 **Caravel** » 2025年 2月 16日 18:16

wdong 写了： 2025年 2月 16日 18:09 必然用了。

呵呵，openai是请人标注的吧，DS等于借用了人家的标注员

wdong

Caravel 写了： 2025年 2月 16日 18:16 呵呵，openai是请人标注的吧，DS等于借用了人家的标注员

他们自己必然也在请人标注

forecasting · 帖子由 **forecasting** » 2025年 2月 16日 18:41

wdong 写了： 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的，中间做了好多比赛，然后又拿比赛代码去做项目。当一群人推进一个领域往外时，大家都是一只半解的，你去看自己的招别人的招，都很傻逼，但是大家都这样也不丢人，偶尔试出来一个管用的招，所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎，但是从来没认为自己不理解，或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架，也就是千把行代码。一直到现在, llama3出来，我也是去读它的源代码，也是没多少代码。然后改着用，去参加比赛。反正一直在泥地里打滚。一有什么新东西出来，离得不太远，大概也能猜出来它的脉络。反正碰到个什么东西，直接去查源代码。

然而我最近再去看原来走过的路，发现一本本几百上千页的教科书已经写出来的。不说教科书，面试题总结都体系化了。现在的人再去学这些东西，先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人，自己可能实战能力就比较有限，但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点，其实是不太串得起来的，实际做事情，或者在论坛上吹牛，也是对着一个点吹。写书就不一样了，这些点得串起来说圆，于是就出来了大量的内容。我自己业余也学物理，看教科书，看得一知半解，这个和我不愿意做习题有关系，但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了，外面的人想进来就难了。

最好知行合一。这算知行脱节吧。一般人应该都有经验，但少人意识到而已。最严重最有害的是语言学习。

DIYer · 帖子由 **DIYer** » 2025年 2月 16日 19:44

这是真的大牛啊

wyseman · 帖子由 **wyseman** » 2025年 2月 16日 19:49

关键是老有人吹写书的多牛逼。说美帝的教科书写的多好多好。

forecasting · 帖子由 **forecasting** » 2025年 2月 16日 20:08

wyseman 写了： 2025年 2月 16日 19:49 关键是老有人吹写书的多牛逼。说美帝的教科书写的多好多好。

很多教科书是讲义，自己读和老师教完全不一样的。何况，很多人不会写书，有不少人自己不懂还能写一堆东西。自己不会鉴别，会被他们害死。

forecasting · 帖子由 **forecasting** » 2025年 2月 16日 20:15

知易行难也罢，知难行易也罢，一旦脱节，都会出问题。不过如版主所说“世人皆傻”，Hinton靠着模糊的仿生思维摸索出一条DNN的道路，可成功之后对理论或者他自己的那些东西的解释就让人啼笑皆非。我都懒得说了。

wass · 帖子由 **wass** » 2025年 2月 16日 20:17

DIYer 写了： 2025年 2月 16日 19:44 这是真的大牛啊

你也是真大牛，一眼就看出真的大牛

forecasting · 帖子由 **forecasting** » 2025年 2月 16日 20:23

一面踏踏实实行，或者做工程，一面抬头望星空或者走到云端俯视一下，看一下全貌，最好。人有偏好，就或失于行，或失于知，当然更有大众不懂，就知道盲从。世人皆傻，众生皆苦。就看云卷云舒吧。

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 16日 21:12

wdong 写了： 2025年 2月 16日 17:31 小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的，你把关键要素摸熟了，也就那么回事。deepseek那篇论文，我一点新鲜东西都没看出来。有一件事情大家不太了解，就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据，finetune了deepseek，效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。

deepseek v3技术上提到的是MOE和MLA，但是这两项都不是deepseek首创，可能是它用的好。

我觉得deepseek v3的成功还是在于数据蒸馏，也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据，并不在开源的架构之中，这是商业秘密。

当然，也不是说OpenAI不会数据蒸馏，它能弄出一个o1-mini，效果和o1一样好，说明它早就知道如何数据蒸馏。但是它藏着不发，结果被deepseek截胡了。

新未名空间

学术界修墙很厉害

#1 学术界修墙很厉害

#2 Re: 学术界修墙很厉害

#3 Re: 学术界修墙很厉害

#4 Re: 学术界修墙很厉害

#5 Re: 学术界修墙很厉害

#6 Re: 学术界修墙很厉害

#7 Re: 学术界修墙很厉害

#8 Re: 学术界修墙很厉害

#9 Re: 学术界修墙很厉害

#10 Re: 学术界修墙很厉害

#11 Re: 学术界修墙很厉害

#12 Re: 学术界修墙很厉害

#13 Re: 学术界修墙很厉害

#14 Re: 学术界修墙很厉害

#15 Re: 学术界修墙很厉害

#16 Re: 学术界修墙很厉害

#17 Re: 学术界修墙很厉害

#18 Re: 学术界修墙很厉害

#19 Re: 学术界修墙很厉害

#20 Re: 学术界修墙很厉害