学术界修墙很厉害

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#1 学术界修墙很厉害

帖子 wdong(万事休)楼主 »

我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。

然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
x7 图片

标签/Tags:
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1410
帖子: 25827
注册时间: 2022年 11月 17日 21:21
联系:

#2 Re: 学术界修墙很厉害

帖子 牛河梁(别问我是谁) »

你入行还不久。等摸爬滚打个几十年。不用看书也知道怎么回事。
x1 图片
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 651
帖子: 6672
注册时间: 2022年 7月 23日 22:13

#3 Re: 学术界修墙很厉害

帖子 wass »

wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。

然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
在哪里?

“ 一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码”
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#4 Re: 学术界修墙很厉害

帖子 wdong(万事休)楼主 »

wass 写了: 2025年 2月 16日 17:13 在哪里?

“ 一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码”
huggingface的transformers库里,到llama 3.3的inference代码都在。没有训练代码,但是模型架构是完整的。
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 651
帖子: 6672
注册时间: 2022年 7月 23日 22:13

#5 Re: 学术界修墙很厉害

帖子 wass »

wdong 写了: 2025年 2月 16日 17:16 huggingface的transformers库里,到llama 3.3的inference代码都在。没有训练代码,但是模型架构是完整的。
想看的是训练的代码
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#6 Re: 学术界修墙很厉害

帖子 wdong(万事休)楼主 »

小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的,你把关键要素摸熟了,也就那么回事。deepseek那篇论文,我一点新鲜东西都没看出来。有一件事情大家不太了解,就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据,finetune了deepseek,效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 517
帖子: 23771
注册时间: 2022年 7月 24日 17:21

#7 Re: 学术界修墙很厉害

帖子 Caravel »

wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。

然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
和思维链很像

原版思维链非常冗长

但是每一步都很容易理解,这个相当于最初的研究过程

后面的学生学,就把思维链简化抛光

变成灌输型监督学习
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 517
帖子: 23771
注册时间: 2022年 7月 24日 17:21

#8 Re: 学术界修墙很厉害

帖子 Caravel »

wdong 写了: 2025年 2月 16日 17:31 小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的,你把关键要素摸熟了,也就那么回事。deepseek那篇论文,我一点新鲜东西都没看出来。有一件事情大家不太了解,就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据,finetune了deepseek,效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。
你是说R1也用了一些蒸馏数据?
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#9 Re: 学术界修墙很厉害

帖子 wdong(万事休)楼主 »

必然用了。
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 441
帖子: 9836
注册时间: 2022年 7月 22日 15:29

#10 Re: 学术界修墙很厉害

帖子 hci(海螺子) »

属实。

教科书都是事后诸葛亮,害人不浅。

科学技术停滞,其实都是教科书惹的祸。

CS里面,我最瞧不起的,就是搞理论的,也是同样的原因。一帮屁都不懂,故弄玄虚的,相互吹捧,恬不知耻。
wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。

然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
x1 图片
上次由 hci 在 2025年 2月 16日 18:24 修改。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 517
帖子: 23771
注册时间: 2022年 7月 24日 17:21

#11 Re: 学术界修墙很厉害

帖子 Caravel »

wdong 写了: 2025年 2月 16日 18:09 必然用了。
呵呵,openai是请人标注的吧,DS等于借用了人家的标注员
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#12 Re: 学术界修墙很厉害

帖子 wdong(万事休)楼主 »

Caravel 写了: 2025年 2月 16日 18:16 呵呵,openai是请人标注的吧,DS等于借用了人家的标注员
他们自己必然也在请人标注
forecasting
著名点评
著名点评
帖子互动: 290
帖子: 4021
注册时间: 2023年 4月 17日 08:26

#13 Re: 学术界修墙很厉害

帖子 forecasting »

wdong 写了: 2025年 2月 16日 16:30 我自己是跟着deep learning一步步走到现在的,中间做了好多比赛,然后又拿比赛代码去做项目。当一群人推进一个领域往外时,大家都是一只半解的,你去看自己的招别人的招,都很傻逼,但是大家都这样也不丢人,偶尔试出来一个管用的招,所有人都会激动得去用。虽然十几年这么搞其实一直都很挣扎,但是从来没认为自己不理解,或者从来没觉得不理解是个什么事。AlexNet刚出来时我也写过自己的框架,也就是千把行代码。一直到现在, llama3出来,我也是去读它的源代码,也是没多少代码。然后改着用,去参加比赛。反正一直在泥地里打滚。一有什么新东西出来,离得不太远,大概也能猜出来它的脉络。反正碰到个什么东西,直接去查源代码。

然而我最近再去看原来走过的路,发现一本本几百上千页的教科书已经写出来的。不说教科书,面试题总结都体系化了。现在的人再去学这些东西,先接触的都是这些教科书。我觉得想要通过读教科书来把握一个行业的脉络太难了。写教科书那些人,自己可能实战能力就比较有限,但是理论写得漂亮。这种漂亮往往把真正有用的信息掩盖了。真正的know how是一个个的点,其实是不太串得起来的,实际做事情,或者在论坛上吹牛,也是对着一个点吹。写书就不一样了,这些点得串起来说圆,于是就出来了大量的内容。我自己业余也学物理,看教科书,看得一知半解,这个和我不愿意做习题有关系,但是我觉得和教科书这种修墙时人为创造的难度。等墙修起来了,外面的人想进来就难了。
最好知行合一。这算知行脱节吧。一般人应该都有经验,但少人意识到而已。最严重最有害的是语言学习。
头像
DIYer
论坛点评
论坛点评
帖子互动: 168
帖子: 2536
注册时间: 2023年 11月 7日 13:48

#14 Re: 学术界修墙很厉害

帖子 DIYer »

这是真的大牛啊
wyseman
著名点评
著名点评
帖子互动: 136
帖子: 3517
注册时间: 2022年 7月 21日 21:51

#15 Re: 学术界修墙很厉害

帖子 wyseman »

关键是老有人吹写书的多牛逼。说美帝的教科书写的多好多好。
x1 图片
forecasting
著名点评
著名点评
帖子互动: 290
帖子: 4021
注册时间: 2023年 4月 17日 08:26

#16 Re: 学术界修墙很厉害

帖子 forecasting »

wyseman 写了: 2025年 2月 16日 19:49 关键是老有人吹写书的多牛逼。说美帝的教科书写的多好多好。
很多教科书是讲义,自己读和老师教完全不一样的。何况,很多人不会写书,有不少人自己不懂还能写一堆东西。自己不会鉴别,会被他们害死。
forecasting
著名点评
著名点评
帖子互动: 290
帖子: 4021
注册时间: 2023年 4月 17日 08:26

#17 Re: 学术界修墙很厉害

帖子 forecasting »

知易行难也罢,知难行易也罢,一旦脱节,都会出问题。不过如版主所说“世人皆傻”,Hinton靠着模糊的仿生思维摸索出一条DNN的道路,可成功之后对理论或者他自己的那些东西的解释就让人啼笑皆非。我都懒得说了。
x1 图片
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 651
帖子: 6672
注册时间: 2022年 7月 23日 22:13

#18 Re: 学术界修墙很厉害

帖子 wass »

DIYer 写了: 2025年 2月 16日 19:44 这是真的大牛啊
你也是真大牛,一眼就看出真的大牛
forecasting
著名点评
著名点评
帖子互动: 290
帖子: 4021
注册时间: 2023年 4月 17日 08:26

#19 Re: 学术界修墙很厉害

帖子 forecasting »

一面踏踏实实行,或者做工程,一面抬头望星空或者走到云端俯视一下,看一下全貌,最好。人有偏好,就或失于行,或失于知,当然更有大众不懂,就知道盲从。世人皆傻,众生皆苦。就看云卷云舒吧。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 260
帖子: 13161
注册时间: 2022年 7月 26日 00:35

#20 Re: 学术界修墙很厉害

帖子 TheMatrix »

wdong 写了: 2025年 2月 16日 17:31 小规模的训练代码huggingface里有。什么DPO啥的都有。大型训练那都是行业机密。但这种机密其实也不太守得住的,你把关键要素摸熟了,也就那么回事。deepseek那篇论文,我一点新鲜东西都没看出来。有一件事情大家不太了解,就是2024年上半年kaggle组办过一场做数学题的比赛。当时所有的组都用老版的deepseek搞。然后最后第一名(NuminaMath)是用chatgpt产生了一批高质量的训练数据,finetune了deepseek,效果非常好。我认为这件事情是促成眼前这一代deepseek的关键性事件。
deepseek v3技术上提到的是MOE和MLA,但是这两项都不是deepseek首创,可能是它用的好。

我觉得deepseek v3的成功还是在于数据蒸馏,也就是高质量训练数据。但是数据蒸馏的方法和得到的高质量数据,并不在开源的架构之中,这是商业秘密。

当然,也不是说OpenAI不会数据蒸馏,它能弄出一个o1-mini,效果和o1一样好,说明它早就知道如何数据蒸馏。但是它藏着不发,结果被deepseek截胡了。
上次由 TheMatrix 在 2025年 2月 16日 21:23 修改。
原因: 未提供修改原因
回复

回到 “STEM”