如何招到真懂GenAI的人

xyzcrai

合着你是一点儿亏都不想吃，拿个临时球员的条件就想签乔丹科比。从你的描述已经看出你的偏执和自负了，这种心态大概率成不了事，不过还是祝你好运。

pnlmpnlm

Bluesky 写了： 2025年 8月 14日 19:11
“能赚到这波风口的溢价”，换个思路，挖不到金子可以卖铲子嘛。

求指点卖什么铲子？

Ifloating · 帖子由 **Ifloating** » 2025年 8月 14日 22:55

fantasist 写了： 2025年 8月 14日 01:08
“Transformer大模型的本质是什么？”
ChatGPT给出的一句话总结：Transformer 大模型是一个基于注意力机制的通用函数逼近器，它通过全局信息路由与非线性变换，将序列建模为条件概率分布，并在大规模训练中学得复杂模式与知识。

这段话听起来很有道理，在总结文字的任务上，chatgpt比人强多了，还能生成各种花样。但能说出这句话代表能出活吗？当然不是。不论什么背景的面试者，平时都很容易看到这些话题的讨论，所以即使没做过能拿的出手的东西，也能吹上一堆。设计面试时如果不谨慎很容易掉入这个陷阱，导致无法挑出真正能干活的人，而是最会忽悠的。对于其它领域，会忽悠也许是强项，甚至在大厂不会忽悠根本上不去。但这几年在竞争最激烈的GenAI领域反复出现不懂的“leader”几个月带崩团队一手好牌打烂的案例，最惨烈的是Llama4。这也是为什么Alex被小扎拉去管一堆researcher，业界一片不看好的原因，因为他没真正干过，靠传了几手的知识去lead别人无法获得信任。IC影响力小一些，但招几个不懂的进来也会极大地拖后腿。大公司如Meta、Apple还能一次次reorg换人折腾，小公司是绝对承受不起的。

我认为我们公司虽然比不上顶尖foundation model公司，但也算认真搞AI的。来分析一下我们的招人思路，抛砖引玉。几个前提条件：
1.只谈技术问题，因为给不了钱招不到人之类场外因素的不在讨论范围。假设来面的有一部分是真懂的。
2.只谈严肃的模型训练。现在市面上大部分startup都叫xxx.ai，实际可能只是做些相关的东西比如data pipeline，或者prompt engineering+RAG的chatgpt wrapper，最多做一点垂类小模型微调，这类工作不是真正的训练模型，需要排除掉。
3.只谈Transformer based模型，不讨论已经很成熟的搜广推之类的其它ML方向。
3.招来的人要能立刻上手干活。我一直说GenAI目前是“你行你上啊”的阶段，只要不是太蠢，放在一个好的环境里至少工程方面肯定能学会。但一般情况下我们不招看上去很聪明却没有相关经验的人来慢慢培养，即使newgrad都不太会开这个口子。infra方面市场上的solid engineer挺多，比如面到的有些搞large scale job scheduling或stream processing，我相信他们有能力学会，只缺乏转行机会，但只能忍痛割爱。

真正的模型训练需要什么技能呢？主要有以下几点：
1.Scaling。因为有scaling law的存在，模型小了能力本身不行，导致只有训练过几百B大模型的人才能了解模型的潜力，有一些宝贵的domain knowledge。有些researcher受限于资源，无法在大模型上充分验证idea的真实表现，是巨大的劣势。
2.SOTA Algorithm。GenAI领域日新月异，每几个星期就会出现一些特别有意思的论文。即使很感兴趣愿意阅读，不持续做训练工作的人肯定无法跟上业界的进展。
3.Hands on coding。真正走在业界前沿的话，没有靠谱的开源框架拿来开箱即用，coding能力是必须的。很多时间需要自己实现论文里的算法或改框架，真训过模型的人不可能手生，不考coding会失去重要的signal。

所以面试会针对这些进行设计，一般粗略地分成两个role：research和training infra，面试时的侧重点不同。而且跟传统面试不一样，AI的范围太广，需要针对candidate的背景去问，绝对不能用lc形式的题目去判断水平。

先说training infra。
scaling: pytorch distributed，各种model parallelism，往深了还有cuda kernel等压榨显卡性能的手段。
algorithm: 虽然不需要研究，但可能需要在框架上实现paper里的algorithm，pytorch必须熟。
考coding时让写一下相关的，比如MoE模型一层的EP rank间如何通信，是真的干过还是简历吹牛一目了然。我面过一个烙印各种知识性的问题都答的不错，看到他简历上号称lead了某platform的long context training，正好我在做这个，就喊他手写一下sequence parallel的伪代码，他就直接GG了。总体来说这个职位还是偏infra，考察起来相对容易。问candidate项目的bottleneck是什么，用什么方法解决，几句话就可以大致判断做到了什么程度。

research的水分就大了。因为ML工业化至少有20多年，各种擦了个边的阿猫阿狗都敢跳出来号称是GenAI researcher。贴近我们工作内容的coding题是找一篇比较新的SOTA paper，让candidate实现一下核心算法的伪代码，然后根据实战经验解释与其它算法的优劣比较。有些东西是模型大了才能体现出真实的效果，所以这方面没做过的只能瞎吹，容易看穿。research背景方面当然也不能让candidate随口忽悠，一般要做个发过的paper的presentation讲出贡献细节。

市场有太多简历包装的很好看的调参侠们，实际上只是下载一个开源框架搞点数据训几B小模型看看曲线的所谓AI Researcher Scientist，没有任何research能力；或者在大厂混过data pipeline组然后title叫MLE，实际没有distributed training的实战经验，这些人都绝对通过不了我们的面试。我们的问题是bar太高，看上的人基本一手OA同级的offer，包裹是秒杀我们的，招人异常艰难，不得不反思，来倒倒苦水。最近连续两个月每天辛苦搬砖之余，每周还要面几个人，到后来跟同事讨论某个candidate的表现都得先查一下自己写了啥feedback才能想起来说的是谁，实在身心俱疲。偶尔碰到水平很不错的candidate，恨不得当场哭求赶紧来带帮我们。

从招人的角度再回顾一下如何抢进赛道喝口汤，别人的视频通俗易懂：站内帖子：普通程序员如何转行为高附加值的AI Engineer 。那个视频缺乏一些具体技能的市场稀缺性的细节，我的帖子是非常好的补充。如果有拿的出手的research成果，paper能直接甩别人脸上的那种，多半已经被小扎reach out了，目前还没看到哪位来本论坛指点江山，如果有机会很希望能聆听大佬的教诲。而绝大多数人不是这样的牛人，所以有志者要针对市场需求去培养技能。我认为现在市场最紧俏的人才，首推能在SOTA算法的基础上真正提高大模型的实际产品能力，其次写过对应的大规模训练框架，以及没有提及的深度推理优化和多模态专长。其它在边缘蹭一蹭的职位比如搞服务器调度(job scheduling / storage / networking)、data pipeline、传统ML算法、AI product frontend/backend的附加值都很有限。因为GenAI整个stack已经非常复杂，方向很容易选错，进一个实际上不掌握核心技术的所谓AI组，白白耗去至少一两年才有机会跳出来，是非常frustrating的事。我个人就有踩坑的惨痛经历，所以很理解大部分人没勇气迈出转方向的一步。
反过来再看如何挑选公司，也是同样的道理。面试时如果只问些假大空话题，比如现在AI模型有什么局限（如果身边有人高谈阔论只讲这些而不敢涉及具体算法的实际应用效果，不敢说百分百，99.9%的概率他其实是不懂的），或者拿些QKV分别是什么意思、loss不收敛怎么办的八股来考（小红书上一堆这种题），绝对是red flag。大概率这公司的人本身就不懂，才只能问这些，按网上题库质量参差不齐的答案去打分。我觉得不妨参考一个很简单的指标，就问他们训练多大的模型，有多少卡。基本上这个公司/组的能力你就了解90%了。过几年怎么样我不知道，但现在真金白银买卡烧钱的，才是能学到最多东西的好地方（大厂的卡总数虽多一定要看具体的组）。如果平时连几百张GPU都摸不到，一定要谨慎考虑。

傻逼装逼比孔乙己还装逼，以为自己是谁？

erniu · 帖子由 **erniu** » 2025年 8月 14日 23:01

这个市场上“训练过几百B大模型的”的掌握核心技术有几个人？楼主心里有数么？

pnlmpnlm

fantasist 写了： 2025年 8月 14日 17:32
我上一家公司做pretrain，感觉更有意思，跟牛人同事们学到很多，可惜钱烧完就黄了。现在的公司知道不可能直接跟御三家竞争，不碰pretrain，专心搞产品。pretrain确实太难，需要万卡起步是一大门槛，欧美这边mistral/cohere的牛人估计都跑光了，所以越做越差。墙国的几个厂有厉害的人才，所以现在最强的几个开源模型都是墙国的。以前合作过的一些水平相当不错，但不愿意出国，不然搬几个过来能解决很多问题。

"所谓“大”模型的优势真的应用到具体的客户自己有具体的数据上，可能还不如客户自己的人用gemini之类的大模型具体的指点自己的人做点针对自己公司的更好" 这个就是我不考虑去做微调、RAG的公司的原因。训练水平跟不上，折腾半天llama 8b，说不定还不如直接想好prompt直接调用frontier model的API，纯粹在浪费时间。这类公司business的基础是一些domain knowledge，有没有AI都能生存下去。而且上限很低，不然巨头早过来抢食了。比如generative search / coding agent之类的市场前景大，巨头就直接下场拼杀，原本搞这些的小startup只能另寻出路。像OA的大包或meta这种砸钱挖人的方法，如果真看中了某个垂类，直接买点数据拉几个核心人员就搞起来了，所以这类小公司的护城河主要在于赛道上人少，而不是AI能力。去这样的公司做AI产品，无法给个人带来溢价，只适合对这个domain感兴趣的人。
我也不是researcher，之前没搞过大模型训练的时候拿到几个server和llm endpoint，几个月就写出一堆RAG和application backend。谁都能轻易入门的东西必然是红海，所以我看出做这个不靠谱，赶紧往训练方面靠，不是说做的东西高大上，而是市场需求大于供给，稀缺性不会很快填平。

“这类公司business的基础是一些domain knowledge，有没有AI都能生存下去”
"谁都能轻易入门的东西必然是红海，所以我看出做这个不靠谱，赶紧往训练方面靠，不是说做的东西高大上，而是市场需求大于供给"
这几个说的却是一点不错

uws · 帖子由 **uws** » 2025年 8月 14日 23:58

fantasist 写了： 2025年 8月 14日 18:48
其实回帖大多都跑题了。我想说的是top researcher之下，对于普通人来说什么样的技能最稀缺，能赚到这波风口的溢价。我们公司有没有前途不是重点，自有founder们去烦恼的事。想办法提升自己，get paid to learn最重要。

没错，除了像楼主这种和LLM 直接相关的
有很大一群索男是和大模型搭不上边
但是呢会用点ML, 用不上gpu 但会用点并行计算
很多时候是用点domain knowledge 做做feature engineering

大家也可以讨论一下这种工科索男如何在大模型时代提升自己
不被大模型浪潮甩下

pnlmpnlm

uws 写了： 2025年 8月 14日 23:58
没错，除了像楼主这种和LLM 直接相关的
有很大一群索男是和大模型搭不上边
但是呢会用点ML, 用不上gpu 但会用点并行计算
很多时候是用点domain knowledge 做做feature engineering

大家也可以讨论一下这种工科索男如何在大模型时代提升自己
不被大模型浪潮甩下

用上gpu也没啥用，以前几年做的各种深度学习模型训练也需要用gpu，但是其实和现在顶尖机构的大型LLM还是没有足够的相关。

fantasist · 帖子由 **fantasist楼主** » 2025年 8月 15日 00:33

uws 写了： 2025年 8月 14日 23:58
没错，除了像楼主这种和LLM 直接相关的
有很大一群索男是和大模型搭不上边
但是呢会用点ML, 用不上gpu 但会用点并行计算
很多时候是用点domain knowledge 做做feature engineering

大家也可以讨论一下这种工科索男如何在大模型时代提升自己
不被大模型浪潮甩下

即使被甩下，现有工作未来几年继续拿几百k的包裹应该没问题，只是连汤都喝不到，看着别人吃香喝辣只有眼红的份。
搞过传统ML的想转，比backend码工硬转有优势，但gap还是挺多的。算法方面，大模型是很general的东西，很多任务没有确切的label，缺乏ranking的CTR之类较精确且NRT的反馈，难度就大很多，另外以前CNN时代找血汗工厂打标的模式现在也很吃力，转大模型相当于学一套另外的数据处理和模型护理技巧。Infra方面，以前的并行计算一般没有现在这么大规模，现在posttrain都要几百卡起步，pretrain更是几千几万卡跑几个月。这种情况下infra的挑战非常不一样，不是堆data parallel就能解决大部分问题。我之前做过几年ML Platform，很多时间花在feature store之类的data system上，现在看是基本浪费了，至少到目前为止对搞大模型一点帮助都没有。未来大模型训练会不会有大型data pipeline甚至streaming的需求，感觉不会很快到来。
整个tech stack很长，想喝口汤吃，需要挑准附加值较高的部分去学去做。

pnlmpnlm

fantasist 写了： 2025年 8月 15日 00:33
即使被甩下，现有工作未来几年继续拿几百k的包裹应该没问题，只是连汤都喝不到，看着别人吃香喝辣只有眼红的份。
搞过传统ML的想转，比backend码工硬转有优势，但gap还是挺多的。算法方面，大模型是很general的东西，很多任务没有确切的label，缺乏ranking的CTR之类较精确且NRT的反馈，难度就大很多，另外以前CNN时代找血汗工厂打标的模式现在也很吃力，转大模型相当于学一套另外的数据处理和模型护理技巧。Infra方面，以前的并行计算一般没有现在这么大规模，现在posttrain都要几百卡起步，pretrain更是几千几万卡跑几个月。这种情况下infra的挑战非常不一样，不是堆data parallel就能解决大部分问题。我之前做过几年ML Platform，很多时间花在feature store之类的data system上，现在看是基本浪费了，至少到目前为止对搞大模型一点帮助都没有。未来大模型训练会不会有大型data pipeline甚至streaming的需求，感觉不会很快到来。
整个tech stack很长，想喝口汤吃，需要挑准附加值较高的部分去学去做。

最近小扎2亿美元抢了一个23，24岁的美国小孩，貌似只在学校经历过。他这种怎么搞出来的万卡经历？

fantasist · 帖子由 **fantasist楼主** » 2025年 8月 15日 01:23

pnlmpnlm 写了： 2025年 8月 15日 00:41
最近小扎2亿美元抢了一个23，24岁的美国小孩，貌似只在学校经历过。他这种怎么搞出来的万卡经历？

现在自媒体假消息满天飞，看到“2亿美元”就知道是编的，没有讨论价值。
普通人看看一年几米的机会就好，别想太遥远的东西。普通人起步，先得找个地方有卡做训练，有产品可以真实验证模型效果，把基本功打扎实了。top researcher能拿很多钱，不是发明了牛逼的算法，就是有训练出frontier model的一手经验。像想出有效的新算法这种事，绝对是需要天分的，一般人一辈子都不可能达到。但在偏工程的方向上做出些成绩，比如哪里加个数值稳定性的小改动，把很强的模型再提高一些，或者改进某个运算的速度，我觉得完全是有可能的。

longtian · 帖子由 **longtian** » 2025年 8月 15日 02:30

一直都是呀

Bluesky 写了： 2025年 8月 14日 19:13
我在想，皮衣黄是不是就是那个卖铲子的。。。。。

宇宙 · 帖子由宇宙 » 2025年 8月 15日 03:24

说句实话
看这个帖子，你自己都不懂genai。
如何能找到真懂的？

fantasist 写了： 2025年 8月 14日 01:08
“Transformer大模型的本质是什么？”
ChatGPT给出的一句话总结：Transformer 大模型是一个基于注意力机制的通用函数逼近器，它通过全局信息路由与非线性变换，将序列建模为条件概率分布，并在大规模训练中学得复杂模式与知识。

这段话听起来很有道理，在总结文字的任务上，chatgpt比人强多了，还能生成各种花样。但能说出这句话代表能出活吗？当然不是。不论什么背景的面试者，平时都很容易看到这些话题的讨论，所以即使没做过能拿的出手的东西，也能吹上一堆。设计面试时如果不谨慎很容易掉入这个陷阱，导致无法挑出真正能干活的人，而是最会忽悠的。对于其它领域，会忽悠也许是强项，甚至在大厂不会忽悠根本上不去。但这几年在竞争最激烈的GenAI领域反复出现不懂的“leader”几个月带崩团队一手好牌打烂的案例，最惨烈的是Llama4。这也是为什么Alex被小扎拉去管一堆researcher，业界一片不看好的原因，因为他没真正干过，靠传了几手的知识去lead别人无法获得信任。IC影响力小一些，但招几个不懂的进来也会极大地拖后腿。大公司如Meta、Apple还能一次次reorg换人折腾，小公司是绝对承受不起的。

我认为我们公司虽然比不上顶尖foundation model公司，但也算认真搞AI的。来分析一下我们的招人思路，抛砖引玉。几个前提条件：
1.只谈技术问题，因为给不了钱招不到人之类场外因素的不在讨论范围。假设来面的有一部分是真懂的。
2.只谈严肃的模型训练。现在市面上大部分startup都叫xxx.ai，实际可能只是做些相关的东西比如data pipeline，或者prompt engineering+RAG的chatgpt wrapper，最多做一点垂类小模型微调，这类工作不是真正的训练模型，需要排除掉。
3.只谈Transformer based模型，不讨论已经很成熟的搜广推之类的其它ML方向。
3.招来的人要能立刻上手干活。我一直说GenAI目前是“你行你上啊”的阶段，只要不是太蠢，放在一个好的环境里至少工程方面肯定能学会。但一般情况下我们不招看上去很聪明却没有相关经验的人来慢慢培养，即使newgrad都不太会开这个口子。infra方面市场上的solid engineer挺多，比如面到的有些搞large scale job scheduling或stream processing，我相信他们有能力学会，只缺乏转行机会，但只能忍痛割爱。

真正的模型训练需要什么技能呢？主要有以下几点：
1.Scaling。因为有scaling law的存在，模型小了能力本身不行，导致只有训练过几百B大模型的人才能了解模型的潜力，有一些宝贵的domain knowledge。有些researcher受限于资源，无法在大模型上充分验证idea的真实表现，是巨大的劣势。
2.SOTA Algorithm。GenAI领域日新月异，每几个星期就会出现一些特别有意思的论文。即使很感兴趣愿意阅读，不持续做训练工作的人肯定无法跟上业界的进展。
3.Hands on coding。真正走在业界前沿的话，没有靠谱的开源框架拿来开箱即用，coding能力是必须的。很多时间需要自己实现论文里的算法或改框架，真训过模型的人不可能手生，不考coding会失去重要的signal。

所以面试会针对这些进行设计，一般粗略地分成两个role：research和training infra，面试时的侧重点不同。而且跟传统面试不一样，AI的范围太广，需要针对candidate的背景去问，绝对不能用lc形式的题目去判断水平。

先说training infra。
scaling: pytorch distributed，各种model parallelism，往深了还有cuda kernel等压榨显卡性能的手段。
algorithm: 虽然不需要研究，但可能需要在框架上实现paper里的algorithm，pytorch必须熟。
考coding时让写一下相关的，比如MoE模型一层的EP rank间如何通信，是真的干过还是简历吹牛一目了然。我面过一个烙印各种知识性的问题都答的不错，看到他简历上号称lead了某platform的long context training，正好我在做这个，就喊他手写一下sequence parallel的伪代码，他就直接GG了。总体来说这个职位还是偏infra，考察起来相对容易。问candidate项目的bottleneck是什么，用什么方法解决，几句话就可以大致判断做到了什么程度。

research的水分就大了。因为ML工业化至少有20多年，各种擦了个边的阿猫阿狗都敢跳出来号称是GenAI researcher。贴近我们工作内容的coding题是找一篇比较新的SOTA paper，让candidate实现一下核心算法的伪代码，然后根据实战经验解释与其它算法的优劣比较。有些东西是模型大了才能体现出真实的效果，所以这方面没做过的只能瞎吹，容易看穿。research背景方面当然也不能让candidate随口忽悠，一般要做个发过的paper的presentation讲出贡献细节。

市场有太多简历包装的很好看的调参侠们，实际上只是下载一个开源框架搞点数据训几B小模型看看曲线的所谓AI Researcher Scientist，没有任何research能力；或者在大厂混过data pipeline组然后title叫MLE，实际没有distributed training的实战经验，这些人都绝对通过不了我们的面试。我们的问题是bar太高，看上的人基本一手OA同级的offer，包裹是秒杀我们的，招人异常艰难，不得不反思，来倒倒苦水。最近连续两个月每天辛苦搬砖之余，每周还要面几个人，到后来跟同事讨论某个candidate的表现都得先查一下自己写了啥feedback才能想起来说的是谁，实在身心俱疲。偶尔碰到水平很不错的candidate，恨不得当场哭求赶紧来带帮我们。

从招人的角度再回顾一下如何抢进赛道喝口汤，别人的视频通俗易懂：站内帖子：普通程序员如何转行为高附加值的AI Engineer 。那个视频缺乏一些具体技能的市场稀缺性的细节，我的帖子是非常好的补充。如果有拿的出手的research成果，paper能直接甩别人脸上的那种，多半已经被小扎reach out了，目前还没看到哪位来本论坛指点江山，如果有机会很希望能聆听大佬的教诲。而绝大多数人不是这样的牛人，所以有志者要针对市场需求去培养技能。我认为现在市场最紧俏的人才，首推能在SOTA算法的基础上真正提高大模型的实际产品能力，其次写过对应的大规模训练框架，以及没有提及的深度推理优化和多模态专长。其它在边缘蹭一蹭的职位比如搞服务器调度(job scheduling / storage / networking)、data pipeline、传统ML算法、AI product frontend/backend的附加值都很有限。因为GenAI整个stack已经非常复杂，方向很容易选错，进一个实际上不掌握核心技术的所谓AI组，白白耗去至少一两年才有机会跳出来，是非常frustrating的事。我个人就有踩坑的惨痛经历，所以很理解大部分人没勇气迈出转方向的一步。
反过来再看如何挑选公司，也是同样的道理。面试时如果只问些假大空话题，比如现在AI模型有什么局限（如果身边有人高谈阔论只讲这些而不敢涉及具体算法的实际应用效果，不敢说百分百，99.9%的概率他其实是不懂的），或者拿些QKV分别是什么意思、loss不收敛怎么办的八股来考（小红书上一堆这种题），绝对是red flag。大概率这公司的人本身就不懂，才只能问这些，按网上题库质量参差不齐的答案去打分。我觉得不妨参考一个很简单的指标，就问他们训练多大的模型，有多少卡。基本上这个公司/组的能力你就了解90%了。过几年怎么样我不知道，但现在真金白银买卡烧钱的，才是能学到最多东西的好地方（大厂的卡总数虽多一定要看具体的组）。如果平时连几百张GPU都摸不到，一定要谨慎考虑。

fantasist · 帖子由 **fantasist楼主** » 2025年 8月 15日 12:03

宇宙写了： 2025年 8月 15日 03:24
说句实话
看这个帖子，你自己都不懂genai。
如何能找到真懂的？

大牛来描述一下怎么考察懂genai的人？欢迎开帖介绍经验

madalpaca

很多startup都喜欢这么干，以为这样就能找到bar很高的牛人。

问题是，如果是自己就是做AI的startup，难道这些问题不应该是自己门清的东西吗？那么只有两个可能：

自己其实也一知半解，想忽悠一个技术水平比自己高的进来白嫖。
自己会，那么这个情况下，应该招的不是AI上面什么都懂的，而是应该找自己需要但是没有的skill。

根据我的观察，大概率是第一种，或者至少对自己公司的核心竞争力没有信心，否则不会对”真懂GenAI“的人这么痴迷。我自己的公司招人，在很长时间里面，根本不需要懂我核心竞争力的人，只需要能具体执行任务就行。那种人只有我业务稳定之后才考虑。

新未名空间

如何招到真懂GenAI的人

#62 Re: 如何招到真懂GenAI的人

#63 Re: 如何招到真懂GenAI的人

#64 Re: 如何招到真懂GenAI的人

#65 Re: 如何招到真懂GenAI的人

#66 Re: 如何招到真懂GenAI的人

#67 Re: 如何招到真懂GenAI的人

#68 Re: 如何招到真懂GenAI的人

#69 Re: 如何招到真懂GenAI的人

#70 Re: 如何招到真懂GenAI的人

#71 Re: 如何招到真懂GenAI的人

#72 Re: 如何招到真懂GenAI的人

#73 Re: 如何招到真懂GenAI的人

#74 Re: 如何招到真懂GenAI的人

#75 Re: 如何招到真懂GenAI的人