deepseek的代码怎么这么少

版主: hci

头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 424
帖子: 9700
注册时间: 2022年 7月 22日 15:29

#21 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

瞎扯。

现在还在double down stupidity,根本没有公司能挣钱。
fantasist 写了: 2025年 5月 15日 22:12 这个市场其实已经悄悄地出清过了,能挣钱的才能活下来,不过外界感受不深
上次由 hci 在 2025年 5月 15日 22:15 修改。
原因: 未提供修改原因
头像
mmking(上水)
论坛精英
论坛精英
帖子互动: 990
帖子: 7310
注册时间: 2023年 1月 25日 05:10

#22 Re: deepseek的代码怎么这么少

帖子 mmking(上水) »

基本没啥能赚钱的🥲
fantasist 写了: 2025年 5月 15日 22:12 这个市场其实已经悄悄地出清过了,能挣钱的才能活下来,不过外界感受不深
凡所有相,皆是虚妄
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#23 Re: deepseek的代码怎么这么少

帖子 fantasist »

hci 写了: 2025年 5月 15日 22:08 我哪里不懂了?

没有不明真相导致的hype,一个刚毕业的phd什么可能拿百万年薪?

与其招这样的,不如让一个老年工程师来干这个活,不用给百万。

这就是我的意思。

哪里不对了?说说看?

这些流行的开源推理库,不正是些老年工程师写的么?llama.cpp, vllm,等等。
你别不服,能拿百万年薪的刚毕业的phd,都是已经有一定track record的。vllm是berkley孵化出来的,可不就是一帮年轻学生在出力么。llama.cpp的原作者好像年纪大点,不知道他是不是愿意去打工,但只要他想,拿百万年薪当然是轻轻松松的。所以别扯学历、年龄之类没用的,在这光打嘴炮没意义,回到那句话,你行你上啊。
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#24 Re: deepseek的代码怎么这么少

帖子 fantasist »

hci 写了: 2025年 5月 15日 22:14 瞎扯。

现在还在double down stupidity,根本没有公司能挣钱。
不妨调查一下头部公司的revenue增长
头像
mmking(上水)
论坛精英
论坛精英
帖子互动: 990
帖子: 7310
注册时间: 2023年 1月 25日 05:10

#25 Re: deepseek的代码怎么这么少

帖子 mmking(上水) »

哪个头部?

还在融资烧钱的

还是靠广告烧钱的
fantasist 写了: 2025年 5月 15日 22:18 不妨调查一下头部公司的revenue增长
凡所有相,皆是虚妄
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 424
帖子: 9700
注册时间: 2022年 7月 22日 15:29

#26 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

什么track record? 在nips上灌水,不是么?

这不是不明真相是什么?
fantasist 写了: 2025年 5月 15日 22:17 你别不服,能拿百万年薪的刚毕业的phd,都是已经有一定track record的。vllm是berkley孵化出来的,可不就是一帮年轻学生在出力么。llama.cpp的原作者好像年纪大点,不知道他是不是愿意去打工,但只要他想,拿百万年薪当然是轻轻松松的。所以别扯学历、年龄之类没用的,在这光打嘴炮没意义,回到那句话,你行你上啊。
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 424
帖子: 9700
注册时间: 2022年 7月 22日 15:29

#27 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

赚钱与revenue增长是一回事么?

你不是一开始在说赚钱么?咋变成revenue 了。
fantasist 写了: 2025年 5月 15日 22:18 不妨调查一下头部公司的revenue增长
上次由 hci 在 2025年 5月 15日 22:32 修改。
原因: 未提供修改原因
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#28 Re: deepseek的代码怎么这么少

帖子 fantasist »

lol 我说这么多,就是看在这边基本都是买买提老网友的份上,提供个普通人多搞点钱的思路(嗅觉灵敏的大佬早吃香喝辣了)。非要觉得自己认知很牛,没赚到钱只是怀才不遇,我也没时间奉陪,言尽于此。跟我抬杠的,那都是你们对 :D
x1 图片
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 424
帖子: 9700
注册时间: 2022年 7月 22日 15:29

#29 Re: deepseek的代码怎么这么少

帖子 hci(海螺子) »

业界犯傻,不是你想搞这个钱就能搞的,你没这个机会。

我就是这意思。你哪里不服了?
fantasist 写了: 2025年 5月 15日 22:38 lol 我说这么多,就是看在这边基本都是买买提老网友的份上,提供个普通人多搞点钱的思路(嗅觉灵敏的大佬早吃香喝辣了)。非要觉得自己认知很牛,没赚到钱只是怀才不遇,我也没时间奉陪,言尽于此。跟我抬杠的,那都是你们对 :D
上次由 hci 在 2025年 5月 15日 22:46 修改。
原因: 未提供修改原因
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 756
帖子: 17073
注册时间: 2022年 7月 23日 23:48

#30 Re: deepseek的代码怎么这么少

帖子 hahan »

fantasist 写了: 2025年 5月 15日 22:01 所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
现在各种模型在benchmark 上的进步
是有啥方法论
还是就是一个个idea去试
Gemini 2.5的degradation 是不是不可避免?
打桥牌的黄俄凋零殆尽
穿汉服的汉儿何能为也
头像
Koch(白牛疯WhiteCowFrenzy)楼主
见习点评
见习点评
帖子互动: 81
帖子: 1711
注册时间: 2022年 10月 25日 11:25

#31 Re: deepseek的代码怎么这么少

帖子 Koch(白牛疯WhiteCowFrenzy)楼主 »

fantasist 写了: 2025年 5月 15日 13:48 感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
好的,一直有个疑问,比如写作文和写程序两个完全不同的事,可以用同一个transformer训练吗?也就是说llm吐一个个token的时候它自己不管是在写作为还是写java?
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#32 Re: deepseek的代码怎么这么少

帖子 fantasist »

hahan 写了: 2025年 5月 15日 23:33 现在各种模型在benchmark 上的进步
是有啥方法论
还是就是一个个idea去试
Gemini 2.5的degradation 是不是不可避免?
这个要从LLM的E2E去看。大致是:
pretrain -> SFT -> RL -> inference time optimizations
前三步都需要各种高质量、diversified数据,至少目前还远没达到提升上限。
pretrain奠定了模型的基础知识。posttrain阶段一般先是简单的supervised learning去跟人类偏好align,然后通过RL提升reasoning等高级能力。
方法论就是不断找到能做的更好的步骤,目标是让模型在多维度的benchmark上都有提高。
这个过程当然是一个个idea去试。宏观上看最开始的时候只有SFT,后来发现RL很有效,目前最强的模型RL变成了基操。微观上,每一步的算法都有可以调整的地方,比如用什么activation函数,怎么做normalization。

Gemini 2.5的degradation指的是用户体验下降?Gemini 2.5pro full model的能力非常强是公认的。提供API服务的公司会根据ROI去调整模型用的资源,甚至替换模型,刚launch时很好很强大之后因为cost太高被nerf是非常正常的。个人用户即使付一点钱也只是小白鼠而已,business服务的质量应该会比较稳定。
fantasist
见习点评
见习点评
帖子互动: 137
帖子: 1252
注册时间: 2022年 7月 24日 19:52

#33 Re: deepseek的代码怎么这么少

帖子 fantasist »

Koch 写了: 2025年 5月 16日 00:21 好的,一直有个疑问,比如写作文和写程序两个完全不同的事,可以用同一个transformer训练吗?也就是说llm吐一个个token的时候它自己不管是在写作为还是写java?
训练数据里有什么,transformer就能掌握什么能力。写作文和写程序在你看来是两个完全不同的事,但从llm的角度看,都是在latent context空间里找下一个最合适的token,本质上没有什么区别。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 756
帖子: 17073
注册时间: 2022年 7月 23日 23:48

#34 Re: deepseek的代码怎么这么少

帖子 hahan »

fantasist 写了: 2025年 5月 16日 01:54 这个要从LLM的E2E去看。大致是:
pretrain -> SFT -> RL -> inference time optimizations
前三步都需要各种高质量、diversified数据,至少目前还远没达到提升上限。
pretrain奠定了模型的基础知识。posttrain阶段一般先是简单的supervised learning去跟人类偏好align,然后通过RL提升reasoning等高级能力。
方法论就是不断找到能做的更好的步骤,目标是让模型在多维度的benchmark上都有提高。
这个过程当然是一个个idea去试。宏观上看最开始的时候只有SFT,后来发现RL很有效,目前最强的模型RL变成了基操。微观上,每一步的算法都有可以调整的地方,比如用什么activation函数,怎么做normalization。

Gemini 2.5的degradation指的是用户体验下降?Gemini 2.5pro full model的能力非常强是公认的。提供API服务的公司会根据ROI去调整模型用的资源,甚至替换模型,刚launch时很好很强大之后因为cost太高被nerf是非常正常的。个人用户即使付一点钱也只是小白鼠而已,business服务的质量应该会比较稳定。
Gemini 2.5 5.6 version 比 3.25 version 差
直觉有可能是improve 了benchmark 但有些没有benchmark 的性质出现了degradation
不过省钱换模型也是一种可能
不过Google的成本控制很好
2.0 flash的training 和inference 据说都比deepseek便宜
打桥牌的黄俄凋零殆尽
穿汉服的汉儿何能为也
回复

回到 “葵花宝典(Programming)”