deepseek的代码怎么这么少

Koch

对LLM一窍不通，想学点以防万一，刚看了下deepseek最长的代码就是这个，好像主要就是用的pytorch？就这么点代码就能在本地跑起来了？
https://github.com/deepseek-ai/DeepSeek ... e/model.py

大神说说看

hci

所谓AI，就是这样，几千行代码，没什么东西。

Koch 写了： 2025年 5月 10日 22:58 对LLM一窍不通，想学点以防万一，刚看了下deepseek最长的代码就是这个，好像主要就是用的pytorch？就这么点代码就能在本地跑起来了？
https://github.com/deepseek-ai/DeepSeek ... e/model.py

大神说说看

Caravel · 帖子由 **Caravel** » 2025年 5月 13日 23:49

hci 写了： 2025年 5月 13日 22:03 所谓AI，就是这样，几千行代码，没什么东西。

这是model apply，又不是训练代码

hci

训练代码一样的，几千行。

Caravel 写了： 2025年 5月 13日 23:49 这是model apply，又不是训练代码

赖美豪中

pytorch再复杂的model也就几千行足够了。llm精华不在code

Caravel 写了： 2025年 5月 13日 23:49 这是model apply，又不是训练代码

Caravel · 帖子由 **Caravel** » 2025年 5月 14日 01:21

hci 写了： 2025年 5月 14日 00:52 训练代码一样的，几千行。

应该不止，还有infar structure的，文件系统, gpu优化

adylee

训练代码也没多多少。
主要是封装的好，基础库里包含了大部分的代码。

Caravel 写了： 2025年 5月 13日 23:49 这是model apply，又不是训练代码

hci

infra这些不算ml训练代码。

很多人不明白的是，这些ANN的玩意没有什么技术含量。

这个hype其实是大众不明真相造成的。

Caravel 写了： 2025年 5月 14日 01:21 应该不止，还有infar structure的，文件系统, gpu优化

Caravel · 帖子由 **Caravel** » 2025年 5月 14日 10:53

hci 写了： 2025年 5月 14日 10:50 infra这些不算ml训练代码。

很多人不明白的是，这些ANN的玩意没有什么技术含量。

这个hype其实是大众不明真相造成的。

AI博士现在拿百万年薪，这就是技术含量啊，别的领域博士可以么

hci

这是hype，是不明真相的结果。

这个世界目前是个黑白颠倒的草台班子，核战清洗一点不冤枉。

Caravel 写了： 2025年 5月 14日 10:53 AI博士现在拿百万年薪，这就是技术含量啊

hahan · 帖子由 **hahan** » 2025年 5月 14日 18:16

hci 写了： 2025年 5月 14日 10:53 这是hype，是不明真相的结果。

这个世界目前是个黑白颠倒的草台班子，核战清洗一点不冤枉。

哈哈哈哈
最近搞genAI的博士们牛气冲天啊
一口一个我们researcher

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 13:48

感兴趣就多读点paper唄，比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程，各方面都已经很深了，这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难，稍微理解一下LLM的基础，其实就两个公式：每一层activation(Ax+B)，和transformer带来的qkv。
随便找点数据，手挫一个transformer，最少几百行代码就能训起来toy model。而跟上日新月异的研究进展，达到模型训练主要的两个小目标：快和好，只要是能满足其中一项的人才，年收入一米起步，因为全世界范围的pool size都很小。
推理看起来更简单，ollama开箱即用都不用写代码。不过你想往下钻，也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer：https://arxiv.org/abs/2501.01005

hci

看了一下文章，Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的，这是系统工程师的工作，这些人恰恰不是一年百万起步的genAI博士researcher。

这就是我说的＂人们不明真相＂。

fantasist 写了： 2025年 5月 15日 13:48 感兴趣就多读点paper唄，比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程，各方面都已经很深了，这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难，稍微理解一下LLM的基础，其实就两个公式：每一层activation(Ax+B)，和transformer带来的qkv。
随便找点数据，手挫一个transformer，最少几百行代码就能训起来toy model。而跟上日新月异的研究进展，达到模型训练主要的两个小目标：快和好，只要是能满足其中一项的人才，年收入一米起步，因为全世界范围的pool size都很小。
推理看起来更简单，ollama开箱即用都不用写代码。不过你想往下钻，也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer：https://arxiv.org/abs/2501.01005

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 21:33

hci 写了： 2025年 5月 15日 19:22 看了一下文章，Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的，这是系统工程师的工作，这些人恰恰不是一年百万起步的genAI博士researcher。

这就是我说的＂人们不明真相＂。

GenAI博士有一部分正是在研究这些系统，比如Berkley系的，被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已，一个有效的创新算法，可能就一两个本科水平的公式几十行pytorch代码，在外行看来是真简单呀，但背后堆了多少苦功，只有做过的才懂。

hci

问题是genAI本身并没有什么技术含量，一个别的领域的phd，也可以搞，但得不到百万年薪。

There is no specialization in computer science.

人们不明真相，是说这个问题。

能码的，什么系统都是一样的。GenAI与compiler, os, db, whatever, 都一样，没有区别。

不能码的，学个啥博士都没有用，还是不能码。

fantasist 写了： 2025年 5月 15日 21:33 GenAI博士有一部分正是在研究这些系统，比如Berkley系的，被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已，一个有效的创新算法，可能就一两个本科水平的公式几十行pytorch代码，在外行看来是真简单呀，但背后堆了多少苦功，只有做过的才懂。

cublai · 帖子由 **cublai** » 2025年 5月 15日 21:54

代码少但是含金量高。比如中大奖只要写对六个数字。别人写得对这个六个数字，你写不出。

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 22:01

hci 写了： 2025年 5月 15日 21:46 问题是genAI本身并没有什么技术含量，一个别的领域的phd，也可以搞，但得不到百万年薪。

There is no specialization in computer science.

人们不明真相，是说这个问题。

所以说你是完全不懂这个行业，一直在yy，酸度爆表了都。说了一大堆，只有“一个别的领域的phd，也可以搞”是恰好蹭到一点边了，但还不准确。想成为前沿专家，甚至连phd degree都不需要。DS就是个很好的例子，一堆年轻的聪明人，搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的，我就稍微指点一句，在别的场合说这个是抬杠，但搞GenAI，真的是“你行你上啊”。我认为入行的窗口还有几年，比预想的长。这个新兴圈子还很小，能不能拿到百万年薪，其实还是取决于能不能做出点东西。只会调API调包的，一面试就露馅了。所谓GenAI phd跟公司里的title很类似，只是层皮，并不说明什么。

mmking

GenAI骗子很多，而且群众分不清

傻子不够用

fantasist 写了： 2025年 5月 15日 22:01 所以说你是完全不懂这个行业，一直在yy，酸度爆表了都。说了一大堆，只有“一个别的领域的phd，也可以搞”是恰好蹭到一点边了，但还不准确。想成为前沿专家，甚至连phd degree都不需要。DS就是个很好的例子，一堆年轻的聪明人，搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的，我就稍微指点一句，在别的场合说这个是抬杠，但搞GenAI，真的是“你行你上啊”。我认为入行的窗口还有几年，比预想的长。这个新兴圈子还很小，能不能拿到百万年薪，其实还是取决于能不能做出点东西。只会调API调包的，一面试就露馅了。所谓GenAI phd跟公司里的title很类似，只是层皮，并不说明什么。

hci

我哪里不懂了？

没有不明真相导致的hype，一个刚毕业的phd什么可能拿百万年薪？

与其招这样的，不如让一个老年工程师来干这个活，不用给百万。

这就是我的意思。

哪里不对了？说说看？

这些流行的开源推理库，不正是些老年工程师写的么？llama.cpp, vllm，等等。

不明真相的傻子业界，投钱打水漂的多了去了。

fantasist 写了： 2025年 5月 15日 22:01 所以说你是完全不懂这个行业，一直在yy，酸度爆表了都。说了一大堆，只有“一个别的领域的phd，也可以搞”是恰好蹭到一点边了，但还不准确。想成为前沿专家，甚至连phd degree都不需要。DS就是个很好的例子，一堆年轻的聪明人，搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的，我就稍微指点一句，在别的场合说这个是抬杠，但搞GenAI，真的是“你行你上啊”。这个新兴圈子还很小，能不能拿到百万年薪，其实还是取决于能不能做出点东西。所谓GenAI phd跟公司里的title很类似，只是层皮，并不说明什么。

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 22:12

mmking 写了： 2025年 5月 15日 22:07 GenAI骗子很多，而且群众分不清傻子不够用

这个市场其实已经悄悄地出清过了，能挣钱的才能活下来，不过外界感受不深

新未名空间

deepseek的代码怎么这么少

#1 deepseek的代码怎么这么少

#2 Re: deepseek的代码怎么这么少

#3 Re: deepseek的代码怎么这么少

#4 Re: deepseek的代码怎么这么少

#5 Re: deepseek的代码怎么这么少

#6 Re: deepseek的代码怎么这么少

#7 Re: deepseek的代码怎么这么少

#8 Re: deepseek的代码怎么这么少

#9 Re: deepseek的代码怎么这么少

#10 Re: deepseek的代码怎么这么少

#11 Re: deepseek的代码怎么这么少

#12 Re: deepseek的代码怎么这么少

#13 Re: deepseek的代码怎么这么少

#14 Re: deepseek的代码怎么这么少

#15 Re: deepseek的代码怎么这么少

#16 Re: deepseek的代码怎么这么少

#17 Re: deepseek的代码怎么这么少

#18 Re: deepseek的代码怎么这么少

#19 Re: deepseek的代码怎么这么少

#20 Re: deepseek的代码怎么这么少