deepseek的代码怎么这么少

版主: hci

头像
Koch(白牛疯WhiteCowFrenzy)楼主
见习点评
见习点评
帖子互动: 80
帖子: 1706
注册时间: 2022年 10月 25日 11:25

#1 deepseek的代码怎么这么少

帖子 Koch(白牛疯WhiteCowFrenzy)楼主 »

对LLM一窍不通,想学点以防万一,刚看了下deepseek最长的代码就是这个,好像主要就是用的pytorch?就这么点代码就能在本地跑起来了?
https://github.com/deepseek-ai/DeepSeek ... e/model.py

大神说说看
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#2 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

所谓AI,就是这样,几千行代码,没什么东西。
Koch 写了: 2025年 5月 10日 22:58 对LLM一窍不通,想学点以防万一,刚看了下deepseek最长的代码就是这个,好像主要就是用的pytorch?就这么点代码就能在本地跑起来了?
https://github.com/deepseek-ai/DeepSeek ... e/model.py

大神说说看
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 485
帖子: 22854
注册时间: 2022年 7月 24日 17:21

#3 Re: deepseek的代码怎么这么少

帖子 Caravel »

hci 写了: 2025年 5月 13日 22:03 所谓AI,就是这样,几千行代码,没什么东西。
这是model apply,又不是训练代码
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#4 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

训练代码一样的,几千行。
Caravel 写了: 2025年 5月 13日 23:49 这是model apply,又不是训练代码
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3345
帖子: 40741
注册时间: 2022年 9月 6日 12:50

#5 Re: deepseek的代码怎么这么少

帖子 赖美豪中(my pronouns: ha/ha) »

pytorch再复杂的model也就几千行足够了。llm精华不在code
Caravel 写了: 2025年 5月 13日 23:49 这是model apply,又不是训练代码
If printing money would end poverty, printing diplomas would end stupidity.
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 485
帖子: 22854
注册时间: 2022年 7月 24日 17:21

#6 Re: deepseek的代码怎么这么少

帖子 Caravel »

hci 写了: 2025年 5月 14日 00:52 训练代码一样的,几千行。
应该不止,还有infar structure的,文件系统, gpu优化
上次由 hci 在 2025年 5月 14日 10:47 修改。
原因: 未提供修改原因
adylee(艾迪李)
知名作家
知名作家
帖子互动: 43
帖子: 842
注册时间: 2022年 8月 7日 23:25

#7 Re: deepseek的代码怎么这么少

帖子 adylee(艾迪李) »

训练代码也没多多少。
主要是封装的好,基础库里包含了大部分的代码。
Caravel 写了: 2025年 5月 13日 23:49 这是model apply,又不是训练代码
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#8 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

infra这些不算ml训练代码。

很多人不明白的是,这些ANN的玩意没有什么技术含量。

这个hype其实是大众不明真相造成的。
Caravel 写了: 2025年 5月 14日 01:21 应该不止,还有infar structure的,文件系统, gpu优化
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 485
帖子: 22854
注册时间: 2022年 7月 24日 17:21

#9 Re: deepseek的代码怎么这么少

帖子 Caravel »

hci 写了: 2025年 5月 14日 10:50 infra这些不算ml训练代码。

很多人不明白的是,这些ANN的玩意没有什么技术含量。

这个hype其实是大众不明真相造成的。
AI博士现在拿百万年薪,这就是技术含量啊,别的领域博士可以么
上次由 Caravel 在 2025年 5月 14日 10:54 修改。
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#10 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

这是hype,是不明真相的结果。

这个世界目前是个黑白颠倒的草台班子,核战清洗一点不冤枉。
Caravel 写了: 2025年 5月 14日 10:53 AI博士现在拿百万年薪,这就是技术含量啊
上次由 hci 在 2025年 5月 14日 11:00 修改。
原因: 未提供修改原因
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 751
帖子: 17001
注册时间: 2022年 7月 23日 23:48

#11 Re: deepseek的代码怎么这么少

帖子 hahan »

hci 写了: 2025年 5月 14日 10:53 这是hype,是不明真相的结果。

这个世界目前是个黑白颠倒的草台班子,核战清洗一点不冤枉。
哈哈哈哈
最近搞genAI的博士们牛气冲天啊
一口一个我们researcher
x1 图片
打桥牌的黄俄凋零殆尽
穿汉服的汉儿何能为也
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#12 Re: deepseek的代码怎么这么少

帖子 fantasist »

感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#13 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

看了一下文章,Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的,这是系统工程师的工作,这些人恰恰不是一年百万起步的genAI博士researcher。

这就是我说的"人们不明真相"。
fantasist 写了: 2025年 5月 15日 13:48 感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
上次由 hci 在 2025年 5月 15日 19:30 修改。
原因: 未提供修改原因
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#14 Re: deepseek的代码怎么这么少

帖子 fantasist »

hci 写了: 2025年 5月 15日 19:22 看了一下文章,Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的,这是系统工程师的工作,这些人恰恰不是一年百万起步的genAI博士researcher。

这就是我说的"人们不明真相"。
GenAI博士有一部分正是在研究这些系统,比如Berkley系的,被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已,一个有效的创新算法,可能就一两个本科水平的公式几十行pytorch代码,在外行看来是真简单呀,但背后堆了多少苦功,只有做过的才懂。
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#15 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

问题是genAI本身并没有什么技术含量,一个别的领域的phd,也可以搞,但得不到百万年薪。

There is no specialization in computer science.

人们不明真相,是说这个问题。

能码的,什么系统都是一样的。GenAI与compiler, os, db, whatever, 都一样,没有区别。

不能码的,学个啥博士都没有用,还是不能码。
fantasist 写了: 2025年 5月 15日 21:33 GenAI博士有一部分正是在研究这些系统,比如Berkley系的,被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已,一个有效的创新算法,可能就一两个本科水平的公式几十行pytorch代码,在外行看来是真简单呀,但背后堆了多少苦功,只有做过的才懂。
上次由 hci 在 2025年 5月 15日 21:56 修改。
原因: 未提供修改原因
cublai
正式写手
正式写手
帖子互动: 14
帖子: 139
注册时间: 2022年 7月 25日 08:32

#16 Re: deepseek的代码怎么这么少

帖子 cublai »

代码少但是含金量高。比如中大奖只要写对六个数字。别人写得对这个六个数字,你写不出。
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#17 Re: deepseek的代码怎么这么少

帖子 fantasist »

hci 写了: 2025年 5月 15日 21:46 问题是genAI本身并没有什么技术含量,一个别的领域的phd,也可以搞,但得不到百万年薪。

There is no specialization in computer science.

人们不明真相,是说这个问题。
所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
头像
mmking(上水)
论坛精英
论坛精英
帖子互动: 983
帖子: 7197
注册时间: 2023年 1月 25日 05:10

#18 Re: deepseek的代码怎么这么少

帖子 mmking(上水) »

GenAI骗子很多,而且群众分不清😂 傻子不够用
fantasist 写了: 2025年 5月 15日 22:01 所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
凡所有相,皆是虚妄
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 422
帖子: 9698
注册时间: 2022年 7月 22日 15:29

#19 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

我哪里不懂了?

没有不明真相导致的hype,一个刚毕业的phd什么可能拿百万年薪?

与其招这样的,不如让一个老年工程师来干这个活,不用给百万。

这就是我的意思。

哪里不对了?说说看?

这些流行的开源推理库,不正是些老年工程师写的么?llama.cpp, vllm,等等。

不明真相的傻子业界,投钱打水漂的多了去了。
fantasist 写了: 2025年 5月 15日 22:01 所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
上次由 hci 在 2025年 5月 15日 22:13 修改。
原因: 未提供修改原因
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#20 Re: deepseek的代码怎么这么少

帖子 fantasist »

mmking 写了: 2025年 5月 15日 22:07 GenAI骗子很多,而且群众分不清😂 傻子不够用
这个市场其实已经悄悄地出清过了,能挣钱的才能活下来,不过外界感受不深
回复

回到 “葵花宝典(Programming)”