deepseek的代码怎么这么少
版主: hci
#1 deepseek的代码怎么这么少
对LLM一窍不通,想学点以防万一,刚看了下deepseek最长的代码就是这个,好像主要就是用的pytorch?就这么点代码就能在本地跑起来了?
https://github.com/deepseek-ai/DeepSeek ... e/model.py
大神说说看
https://github.com/deepseek-ai/DeepSeek ... e/model.py
大神说说看
#2 Re: deepseek的代码怎么这么少
所谓AI,就是这样,几千行代码,没什么东西。
Koch 写了: 2025年 5月 10日 22:58 对LLM一窍不通,想学点以防万一,刚看了下deepseek最长的代码就是这个,好像主要就是用的pytorch?就这么点代码就能在本地跑起来了?
https://github.com/deepseek-ai/DeepSeek ... e/model.py
大神说说看
-
- 论坛元老
Caravel 的博客 - 帖子互动: 485
- 帖子: 22854
- 注册时间: 2022年 7月 24日 17:21
#5 Re: deepseek的代码怎么这么少
pytorch再复杂的model也就几千行足够了。llm精华不在code
If printing money would end poverty, printing diplomas would end stupidity.
-
- 论坛元老
Caravel 的博客 - 帖子互动: 485
- 帖子: 22854
- 注册时间: 2022年 7月 24日 17:21
#6 Re: deepseek的代码怎么这么少
应该不止,还有infar structure的,文件系统, gpu优化
上次由 hci 在 2025年 5月 14日 10:47 修改。
原因: 未提供修改原因
原因: 未提供修改原因
-
- 论坛元老
Caravel 的博客 - 帖子互动: 485
- 帖子: 22854
- 注册时间: 2022年 7月 24日 17:21
#12 Re: deepseek的代码怎么这么少
感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
#13 Re: deepseek的代码怎么这么少
看了一下文章,Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的,这是系统工程师的工作,这些人恰恰不是一年百万起步的genAI博士researcher。
这就是我说的"人们不明真相"。
这就是我说的"人们不明真相"。
fantasist 写了: 2025年 5月 15日 13:48 感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
上次由 hci 在 2025年 5月 15日 19:30 修改。
原因: 未提供修改原因
原因: 未提供修改原因
#14 Re: deepseek的代码怎么这么少
GenAI博士有一部分正是在研究这些系统,比如Berkley系的,被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已,一个有效的创新算法,可能就一两个本科水平的公式几十行pytorch代码,在外行看来是真简单呀,但背后堆了多少苦功,只有做过的才懂。hci 写了: 2025年 5月 15日 19:22 看了一下文章,Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的,这是系统工程师的工作,这些人恰恰不是一年百万起步的genAI博士researcher。
这就是我说的"人们不明真相"。
#15 Re: deepseek的代码怎么这么少
问题是genAI本身并没有什么技术含量,一个别的领域的phd,也可以搞,但得不到百万年薪。
There is no specialization in computer science.
人们不明真相,是说这个问题。
能码的,什么系统都是一样的。GenAI与compiler, os, db, whatever, 都一样,没有区别。
不能码的,学个啥博士都没有用,还是不能码。
There is no specialization in computer science.
人们不明真相,是说这个问题。
能码的,什么系统都是一样的。GenAI与compiler, os, db, whatever, 都一样,没有区别。
不能码的,学个啥博士都没有用,还是不能码。
fantasist 写了: 2025年 5月 15日 21:33 GenAI博士有一部分正是在研究这些系统,比如Berkley系的,被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已,一个有效的创新算法,可能就一两个本科水平的公式几十行pytorch代码,在外行看来是真简单呀,但背后堆了多少苦功,只有做过的才懂。
上次由 hci 在 2025年 5月 15日 21:56 修改。
原因: 未提供修改原因
原因: 未提供修改原因
#17 Re: deepseek的代码怎么这么少
所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。hci 写了: 2025年 5月 15日 21:46 问题是genAI本身并没有什么技术含量,一个别的领域的phd,也可以搞,但得不到百万年薪。
There is no specialization in computer science.
人们不明真相,是说这个问题。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
#18 Re: deepseek的代码怎么这么少
GenAI骗子很多,而且群众分不清
傻子不够用
fantasist 写了: 2025年 5月 15日 22:01 所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
凡所有相,皆是虚妄
#19 Re: deepseek的代码怎么这么少
我哪里不懂了?
没有不明真相导致的hype,一个刚毕业的phd什么可能拿百万年薪?
与其招这样的,不如让一个老年工程师来干这个活,不用给百万。
这就是我的意思。
哪里不对了?说说看?
这些流行的开源推理库,不正是些老年工程师写的么?llama.cpp, vllm,等等。
不明真相的傻子业界,投钱打水漂的多了去了。
没有不明真相导致的hype,一个刚毕业的phd什么可能拿百万年薪?
与其招这样的,不如让一个老年工程师来干这个活,不用给百万。
这就是我的意思。
哪里不对了?说说看?
这些流行的开源推理库,不正是些老年工程师写的么?llama.cpp, vllm,等等。
不明真相的傻子业界,投钱打水漂的多了去了。
fantasist 写了: 2025年 5月 15日 22:01 所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
上次由 hci 在 2025年 5月 15日 22:13 修改。
原因: 未提供修改原因
原因: 未提供修改原因