现在还在double down stupidity,根本没有公司能挣钱。
deepseek的代码怎么这么少
版主: hci
#21 Re: deepseek的代码怎么这么少
瞎扯。
现在还在double down stupidity,根本没有公司能挣钱。
现在还在double down stupidity,根本没有公司能挣钱。
上次由 hci 在 2025年 5月 15日 22:15 修改。
原因: 未提供修改原因
原因: 未提供修改原因
#23 Re: deepseek的代码怎么这么少
你别不服,能拿百万年薪的刚毕业的phd,都是已经有一定track record的。vllm是berkley孵化出来的,可不就是一帮年轻学生在出力么。llama.cpp的原作者好像年纪大点,不知道他是不是愿意去打工,但只要他想,拿百万年薪当然是轻轻松松的。所以别扯学历、年龄之类没用的,在这光打嘴炮没意义,回到那句话,你行你上啊。hci 写了: 2025年 5月 15日 22:08 我哪里不懂了?
没有不明真相导致的hype,一个刚毕业的phd什么可能拿百万年薪?
与其招这样的,不如让一个老年工程师来干这个活,不用给百万。
这就是我的意思。
哪里不对了?说说看?
这些流行的开源推理库,不正是些老年工程师写的么?llama.cpp, vllm,等等。
#26 Re: deepseek的代码怎么这么少
什么track record? 在nips上灌水,不是么?
这不是不明真相是什么?
这不是不明真相是什么?
fantasist 写了: 2025年 5月 15日 22:17 你别不服,能拿百万年薪的刚毕业的phd,都是已经有一定track record的。vllm是berkley孵化出来的,可不就是一帮年轻学生在出力么。llama.cpp的原作者好像年纪大点,不知道他是不是愿意去打工,但只要他想,拿百万年薪当然是轻轻松松的。所以别扯学历、年龄之类没用的,在这光打嘴炮没意义,回到那句话,你行你上啊。
#28 Re: deepseek的代码怎么这么少
lol 我说这么多,就是看在这边基本都是买买提老网友的份上,提供个普通人多搞点钱的思路(嗅觉灵敏的大佬早吃香喝辣了)。非要觉得自己认知很牛,没赚到钱只是怀才不遇,我也没时间奉陪,言尽于此。跟我抬杠的,那都是你们对 

x1

#29 Re: deepseek的代码怎么这么少
业界犯傻,不是你想搞这个钱就能搞的,你没这个机会。
我就是这意思。你哪里不服了?
我就是这意思。你哪里不服了?
fantasist 写了: 2025年 5月 15日 22:38 lol 我说这么多,就是看在这边基本都是买买提老网友的份上,提供个普通人多搞点钱的思路(嗅觉灵敏的大佬早吃香喝辣了)。非要觉得自己认知很牛,没赚到钱只是怀才不遇,我也没时间奉陪,言尽于此。跟我抬杠的,那都是你们对![]()
上次由 hci 在 2025年 5月 15日 22:46 修改。
原因: 未提供修改原因
原因: 未提供修改原因
#30 Re: deepseek的代码怎么这么少
现在各种模型在benchmark 上的进步fantasist 写了: 2025年 5月 15日 22:01 所以说你是完全不懂这个行业,一直在yy,酸度爆表了都。说了一大堆,只有“一个别的领域的phd,也可以搞”是恰好蹭到一点边了,但还不准确。想成为前沿专家,甚至连phd degree都不需要。DS就是个很好的例子,一堆年轻的聪明人,搞点东西出来就能震撼全世界。
对于想在风口上挣点钱的,我就稍微指点一句,在别的场合说这个是抬杠,但搞GenAI,真的是“你行你上啊”。我认为入行的窗口还有几年,比预想的长。这个新兴圈子还很小,能不能拿到百万年薪,其实还是取决于能不能做出点东西。只会调API调包的,一面试就露馅了。所谓GenAI phd跟公司里的title很类似,只是层皮,并不说明什么。
是有啥方法论
还是就是一个个idea去试
Gemini 2.5的degradation 是不是不可避免?
打桥牌的黄俄凋零殆尽
穿汉服的汉儿何能为也
穿汉服的汉儿何能为也
#31 Re: deepseek的代码怎么这么少
好的,一直有个疑问,比如写作文和写程序两个完全不同的事,可以用同一个transformer训练吗?也就是说llm吐一个个token的时候它自己不管是在写作为还是写java?fantasist 写了: 2025年 5月 15日 13:48 感兴趣就多读点paper唄,比如ds最新的https://arxiv.org/abs/2505.09343
大模型从整体看早已是极其复杂的软硬协同的系统工程,各方面都已经很深了,这也是为什么没两把刷子只能找到做application之类蹭点热度的工作。
入门倒是不难,稍微理解一下LLM的基础,其实就两个公式:每一层activation(Ax+B),和transformer带来的qkv。
随便找点数据,手挫一个transformer,最少几百行代码就能训起来toy model。而跟上日新月异的研究进展,达到模型训练主要的两个小目标:快和好,只要是能满足其中一项的人才,年收入一米起步,因为全世界范围的pool size都很小。
推理看起来更简单,ollama开箱即用都不用写代码。不过你想往下钻,也是有无限可能的。比如MLSys今年最佳paper给了FlashInfer:https://arxiv.org/abs/2501.01005
#32 Re: deepseek的代码怎么这么少
这个要从LLM的E2E去看。大致是:hahan 写了: 2025年 5月 15日 23:33 现在各种模型在benchmark 上的进步
是有啥方法论
还是就是一个个idea去试
Gemini 2.5的degradation 是不是不可避免?
pretrain -> SFT -> RL -> inference time optimizations
前三步都需要各种高质量、diversified数据,至少目前还远没达到提升上限。
pretrain奠定了模型的基础知识。posttrain阶段一般先是简单的supervised learning去跟人类偏好align,然后通过RL提升reasoning等高级能力。
方法论就是不断找到能做的更好的步骤,目标是让模型在多维度的benchmark上都有提高。
这个过程当然是一个个idea去试。宏观上看最开始的时候只有SFT,后来发现RL很有效,目前最强的模型RL变成了基操。微观上,每一步的算法都有可以调整的地方,比如用什么activation函数,怎么做normalization。
Gemini 2.5的degradation指的是用户体验下降?Gemini 2.5pro full model的能力非常强是公认的。提供API服务的公司会根据ROI去调整模型用的资源,甚至替换模型,刚launch时很好很强大之后因为cost太高被nerf是非常正常的。个人用户即使付一点钱也只是小白鼠而已,business服务的质量应该会比较稳定。
#33 Re: deepseek的代码怎么这么少
训练数据里有什么,transformer就能掌握什么能力。写作文和写程序在你看来是两个完全不同的事,但从llm的角度看,都是在latent context空间里找下一个最合适的token,本质上没有什么区别。Koch 写了: 2025年 5月 16日 00:21 好的,一直有个疑问,比如写作文和写程序两个完全不同的事,可以用同一个transformer训练吗?也就是说llm吐一个个token的时候它自己不管是在写作为还是写java?
#34 Re: deepseek的代码怎么这么少
Gemini 2.5 5.6 version 比 3.25 version 差fantasist 写了: 2025年 5月 16日 01:54 这个要从LLM的E2E去看。大致是:
pretrain -> SFT -> RL -> inference time optimizations
前三步都需要各种高质量、diversified数据,至少目前还远没达到提升上限。
pretrain奠定了模型的基础知识。posttrain阶段一般先是简单的supervised learning去跟人类偏好align,然后通过RL提升reasoning等高级能力。
方法论就是不断找到能做的更好的步骤,目标是让模型在多维度的benchmark上都有提高。
这个过程当然是一个个idea去试。宏观上看最开始的时候只有SFT,后来发现RL很有效,目前最强的模型RL变成了基操。微观上,每一步的算法都有可以调整的地方,比如用什么activation函数,怎么做normalization。
Gemini 2.5的degradation指的是用户体验下降?Gemini 2.5pro full model的能力非常强是公认的。提供API服务的公司会根据ROI去调整模型用的资源,甚至替换模型,刚launch时很好很强大之后因为cost太高被nerf是非常正常的。个人用户即使付一点钱也只是小白鼠而已,business服务的质量应该会比较稳定。
直觉有可能是improve 了benchmark 但有些没有benchmark 的性质出现了degradation
不过省钱换模型也是一种可能
不过Google的成本控制很好
2.0 flash的training 和inference 据说都比deepseek便宜
打桥牌的黄俄凋零殆尽
穿汉服的汉儿何能为也
穿汉服的汉儿何能为也