deepseek的代码怎么这么少

hci

瞎扯。

现在还在double down stupidity，根本没有公司能挣钱。

fantasist 写了： 2025年 5月 15日 22:12 这个市场其实已经悄悄地出清过了，能挣钱的才能活下来，不过外界感受不深

mmking

基本没啥能赚钱的

fantasist 写了： 2025年 5月 15日 22:12 这个市场其实已经悄悄地出清过了，能挣钱的才能活下来，不过外界感受不深

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 22:17

hci 写了： 2025年 5月 15日 22:08 我哪里不懂了？

没有不明真相导致的hype，一个刚毕业的phd什么可能拿百万年薪？

与其招这样的，不如让一个老年工程师来干这个活，不用给百万。

这就是我的意思。

哪里不对了？说说看？

这些流行的开源推理库，不正是些老年工程师写的么？llama.cpp, vllm，等等。

你别不服，能拿百万年薪的刚毕业的phd，都是已经有一定track record的。vllm是berkley孵化出来的，可不就是一帮年轻学生在出力么。llama.cpp的原作者好像年纪大点，不知道他是不是愿意去打工，但只要他想，拿百万年薪当然是轻轻松松的。所以别扯学历、年龄之类没用的，在这光打嘴炮没意义，回到那句话，你行你上啊。

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 22:18

hci 写了： 2025年 5月 15日 22:14 瞎扯。

现在还在double down stupidity，根本没有公司能挣钱。

不妨调查一下头部公司的revenue增长

mmking

哪个头部？

还在融资烧钱的

还是靠广告烧钱的

fantasist 写了： 2025年 5月 15日 22:18 不妨调查一下头部公司的revenue增长

hci

什么track record? 在nips上灌水，不是么？

这不是不明真相是什么？

fantasist 写了： 2025年 5月 15日 22:17 你别不服，能拿百万年薪的刚毕业的phd，都是已经有一定track record的。vllm是berkley孵化出来的，可不就是一帮年轻学生在出力么。llama.cpp的原作者好像年纪大点，不知道他是不是愿意去打工，但只要他想，拿百万年薪当然是轻轻松松的。所以别扯学历、年龄之类没用的，在这光打嘴炮没意义，回到那句话，你行你上啊。

hci

赚钱与revenue增长是一回事么？

你不是一开始在说赚钱么？咋变成revenue 了。

fantasist 写了： 2025年 5月 15日 22:18 不妨调查一下头部公司的revenue增长

fantasist · 帖子由 **fantasist** » 2025年 5月 15日 22:38

lol 我说这么多，就是看在这边基本都是买买提老网友的份上，提供个普通人多搞点钱的思路（嗅觉灵敏的大佬早吃香喝辣了）。非要觉得自己认知很牛，没赚到钱只是怀才不遇，我也没时间奉陪，言尽于此。跟我抬杠的，那都是你们对

hci

业界犯傻，不是你想搞这个钱就能搞的，你没这个机会。

我就是这意思。你哪里不服了？

fantasist 写了： 2025年 5月 15日 22:38 lol 我说这么多，就是看在这边基本都是买买提老网友的份上，提供个普通人多搞点钱的思路（嗅觉灵敏的大佬早吃香喝辣了）。非要觉得自己认知很牛，没赚到钱只是怀才不遇，我也没时间奉陪，言尽于此。跟我抬杠的，那都是你们对

hahan · 帖子由 **hahan** » 2025年 5月 15日 23:33

fantasist 写了： 2025年 5月 15日 22:01 所以说你是完全不懂这个行业，一直在yy，酸度爆表了都。说了一大堆，只有“一个别的领域的phd，也可以搞”是恰好蹭到一点边了，但还不准确。想成为前沿专家，甚至连phd degree都不需要。DS就是个很好的例子，一堆年轻的聪明人，搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的，我就稍微指点一句，在别的场合说这个是抬杠，但搞GenAI，真的是“你行你上啊”。我认为入行的窗口还有几年，比预想的长。这个新兴圈子还很小，能不能拿到百万年薪，其实还是取决于能不能做出点东西。只会调API调包的，一面试就露馅了。所谓GenAI phd跟公司里的title很类似，只是层皮，并不说明什么。

现在各种模型在benchmark 上的进步
是有啥方法论
还是就是一个个idea去试
Gemini 2.5的degradation 是不是不可避免？

Koch

fantasist 写了： 2025年 5月 15日 13:48 感兴趣就多读点paper唄，比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程，各方面都已经很深了，这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难，稍微理解一下LLM的基础，其实就两个公式：每一层activation(Ax+B)，和transformer带来的qkv。
随便找点数据，手挫一个transformer，最少几百行代码就能训起来toy model。而跟上日新月异的研究进展，达到模型训练主要的两个小目标：快和好，只要是能满足其中一项的人才，年收入一米起步，因为全世界范围的pool size都很小。
推理看起来更简单，ollama开箱即用都不用写代码。不过你想往下钻，也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer：https://arxiv.org/abs/2501.01005

好的，一直有个疑问，比如写作文和写程序两个完全不同的事，可以用同一个transformer训练吗？也就是说llm吐一个个token的时候它自己不管是在写作为还是写java？

fantasist · 帖子由 **fantasist** » 2025年 5月 16日 01:54

hahan 写了： 2025年 5月 15日 23:33 现在各种模型在benchmark 上的进步
是有啥方法论
还是就是一个个idea去试
Gemini 2.5的degradation 是不是不可避免？

这个要从LLM的E2E去看。大致是：
pretrain -> SFT -> RL -> inference time optimizations
前三步都需要各种高质量、diversified数据，至少目前还远没达到提升上限。
pretrain奠定了模型的基础知识。posttrain阶段一般先是简单的supervised learning去跟人类偏好align，然后通过RL提升reasoning等高级能力。
方法论就是不断找到能做的更好的步骤，目标是让模型在多维度的benchmark上都有提高。
这个过程当然是一个个idea去试。宏观上看最开始的时候只有SFT，后来发现RL很有效，目前最强的模型RL变成了基操。微观上，每一步的算法都有可以调整的地方，比如用什么activation函数，怎么做normalization。

Gemini 2.5的degradation指的是用户体验下降？Gemini 2.5pro full model的能力非常强是公认的。提供API服务的公司会根据ROI去调整模型用的资源，甚至替换模型，刚launch时很好很强大之后因为cost太高被nerf是非常正常的。个人用户即使付一点钱也只是小白鼠而已，business服务的质量应该会比较稳定。

fantasist · 帖子由 **fantasist** » 2025年 5月 16日 02:03

Koch 写了： 2025年 5月 16日 00:21 好的，一直有个疑问，比如写作文和写程序两个完全不同的事，可以用同一个transformer训练吗？也就是说llm吐一个个token的时候它自己不管是在写作为还是写java？

训练数据里有什么，transformer就能掌握什么能力。写作文和写程序在你看来是两个完全不同的事，但从llm的角度看，都是在latent context空间里找下一个最合适的token，本质上没有什么区别。

hahan · 帖子由 **hahan** » 2025年 5月 16日 09:20

fantasist 写了： 2025年 5月 16日 01:54 这个要从LLM的E2E去看。大致是：
pretrain -> SFT -> RL -> inference time optimizations
前三步都需要各种高质量、diversified数据，至少目前还远没达到提升上限。
pretrain奠定了模型的基础知识。posttrain阶段一般先是简单的supervised learning去跟人类偏好align，然后通过RL提升reasoning等高级能力。
方法论就是不断找到能做的更好的步骤，目标是让模型在多维度的benchmark上都有提高。
这个过程当然是一个个idea去试。宏观上看最开始的时候只有SFT，后来发现RL很有效，目前最强的模型RL变成了基操。微观上，每一步的算法都有可以调整的地方，比如用什么activation函数，怎么做normalization。

Gemini 2.5的degradation指的是用户体验下降？Gemini 2.5pro full model的能力非常强是公认的。提供API服务的公司会根据ROI去调整模型用的资源，甚至替换模型，刚launch时很好很强大之后因为cost太高被nerf是非常正常的。个人用户即使付一点钱也只是小白鼠而已，business服务的质量应该会比较稳定。

Gemini 2.5 5.6 version 比 3.25 version 差
直觉有可能是improve 了benchmark 但有些没有benchmark 的性质出现了degradation
不过省钱换模型也是一种可能
不过Google的成本控制很好
2.0 flash的training 和inference 据说都比deepseek便宜

新未名空间

deepseek的代码怎么这么少

#21 Re: deepseek的代码怎么这么少

#22 Re: deepseek的代码怎么这么少

#23 Re: deepseek的代码怎么这么少

#24 Re: deepseek的代码怎么这么少

#25 Re: deepseek的代码怎么这么少

#26 Re: deepseek的代码怎么这么少

#27 Re: deepseek的代码怎么这么少

#28 Re: deepseek的代码怎么这么少

#29 Re: deepseek的代码怎么这么少

#30 Re: deepseek的代码怎么这么少

#31 Re: deepseek的代码怎么这么少

#32 Re: deepseek的代码怎么这么少

#33 Re: deepseek的代码怎么这么少

#34 Re: deepseek的代码怎么这么少