分页: 1 / 2
#1 deepseek的代码怎么这么少
发表于 : 2025年 5月 10日 22:58
由 Koch
对LLM一窍不通,想学点以防万一,刚看了下deepseek最长的代码就是这个,好像主要就是用的pytorch?就这么点代码就能在本地跑起来了?
https://github.com/deepseek-ai/DeepSeek ... e/model.py
大神说说看
#2 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 13日 22:03
由 hci
#3 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 13日 23:49
由 Caravel
hci 写了: 2025年 5月 13日 22:03
所谓AI,就是这样,几千行代码,没什么东西。
这是model apply,又不是训练代码
#4 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 00:52
由 hci
训练代码一样的,几千行。
Caravel 写了: 2025年 5月 13日 23:49
这是model apply,又不是训练代码
#5 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 01:05
由 赖美豪中
pytorch再复杂的model也就几千行足够了。llm精华不在code
Caravel 写了: 2025年 5月 13日 23:49
这是model apply,又不是训练代码
#6 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 01:21
由 Caravel
hci 写了: 2025年 5月 14日 00:52
训练代码一样的,几千行。
应该不止,还有infar structure的,文件系统, gpu优化
#7 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 02:22
由 adylee
训练代码也没多多少。
主要是封装的好,基础库里包含了大部分的代码。
Caravel 写了: 2025年 5月 13日 23:49
这是model apply,又不是训练代码
#8 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 10:50
由 hci
infra这些不算ml训练代码。
很多人不明白的是,这些ANN的玩意没有什么技术含量。
这个hype其实是大众不明真相造成的。
Caravel 写了: 2025年 5月 14日 01:21
应该不止,还有infar structure的,文件系统, gpu优化
#9 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 10:53
由 Caravel
hci 写了: 2025年 5月 14日 10:50
infra这些不算ml训练代码。
很多人不明白的是,这些ANN的玩意没有什么技术含量。
这个hype其实是大众不明真相造成的。
AI博士现在拿百万年薪,这就是技术含量啊,别的领域博士可以么
#10 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 10:53
由 hci
这是hype,是不明真相的结果。
这个世界目前是个黑白颠倒的草台班子,核战清洗一点不冤枉。
Caravel 写了: 2025年 5月 14日 10:53
AI博士现在拿百万年薪,这就是技术含量啊
#11 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 14日 18:16
由 hahan
hci 写了: 2025年 5月 14日 10:53
这是hype,是不明真相的结果。
这个世界目前是个黑白颠倒的草台班子,核战清洗一点不冤枉。
哈哈哈哈
最近搞genAI的博士们牛气冲天啊
一口一个我们researcher
#12 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 13:48
由 fantasist
感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:
https://arxiv.org/abs/2501.01005
#13 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 19:22
由 hci
看了一下文章,Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的,这是系统工程师的工作,这些人恰恰不是一年百万起步的genAI博士researcher。
这就是我说的"人们不明真相"。
fantasist 写了: 2025年 5月 15日 13:48
感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:
https://arxiv.org/abs/2501.01005
#14 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 21:33
由 fantasist
hci 写了: 2025年 5月 15日 19:22
看了一下文章,Flashinfer 这种工作不是写PyTorch代码的所谓ML工程师能干的,这是系统工程师的工作,这些人恰恰不是一年百万起步的genAI博士researcher。
这就是我说的"人们不明真相"。
GenAI博士有一部分正是在研究这些系统,比如Berkley系的,被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已,一个有效的创新算法,可能就一两个本科水平的公式几十行pytorch代码,在外行看来是真简单呀,但背后堆了多少苦功,只有做过的才懂。
#15 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 21:46
由 hci
问题是genAI本身并没有什么技术含量,一个别的领域的phd,也可以搞,但得不到百万年薪。
There is no specialization in computer science.
人们不明真相,是说这个问题。
能码的,什么系统都是一样的。GenAI与compiler, os, db, whatever, 都一样,没有区别。
不能码的,学个啥博士都没有用,还是不能码。
fantasist 写了: 2025年 5月 15日 21:33
GenAI博士有一部分正是在研究这些系统,比如Berkley系的,被各top公司疯抢。算法搞的好的也不是“写pytorch代码”而已,一个有效的创新算法,可能就一两个本科水平的公式几十行pytorch代码,在外行看来是真简单呀,但背后堆了多少苦功,只有做过的才懂。
#16 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 21:54
由 cublai
代码少但是含金量高。比如中大奖只要写对六个数字。别人写得对这个六个数字,你写不出。
#17 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 22:01
由 fantasist
hci 写了: 2025年 5月 15日 21:46
问题是genAI本身并没有什么技术含量,一个别的领域的phd,也可以搞,但得不到百万年薪。
There is no specialization in computer science.
人们不明真相,是说这个问题。
所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
#18 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 22:07
由 mmking
GenAI骗子很多,而且群众分不清

傻子不够用
fantasist 写了: 2025年 5月 15日 22:01
所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
#19 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 22:08
由 hci
我哪里不懂了?
没有不明真相导致的hype,一个刚毕业的phd什么可能拿百万年薪?
与其招这样的,不如让一个老年工程师来干这个活,不用给百万。
这就是我的意思。
哪里不对了?说说看?
这些流行的开源推理库,不正是些老年工程师写的么?llama.cpp, vllm,等等。
不明真相的傻子业界,投钱打水漂的多了去了。
fantasist 写了: 2025年 5月 15日 22:01
所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
#20 Re: deepseek的代码怎么这么少
发表于 : 2025年 5月 15日 22:12
由 fantasist
mmking 写了: 2025年 5月 15日 22:07
GenAI骗子很多,而且群众分不清

傻子不够用
这个市场其实已经悄悄地出清过了,能挣钱的才能活下来,不过外界感受不深