我在meta很多年早待够了,情感上一点都不想回去,近期拿过offer不过还是放弃了现钱选择继续在startup。这个新org会发展成什么样很难说,但有一点很明确,文化绝对toxic,Alex等空降兵跟现有GenAI org的政斗大戏已经拉开序幕。我就是不喜欢大厂这些乌烟瘴气才跑路的,踏踏实实搬砖不想参与这些烦心事。
我们老板还是挺有追求的,明确说了现在不卖身。他们都这么有上进心,跟着赌一把又有何妨。
版主: hci
我在meta很多年早待够了,情感上一点都不想回去,近期拿过offer不过还是放弃了现钱选择继续在startup。这个新org会发展成什么样很难说,但有一点很明确,文化绝对toxic,Alex等空降兵跟现有GenAI org的政斗大戏已经拉开序幕。我就是不喜欢大厂这些乌烟瘴气才跑路的,踏踏实实搬砖不想参与这些烦心事。
我们老板还是挺有追求的,明确说了现在不卖身。他们都这么有上进心,跟着赌一把又有何妨。
newgrad不可能有你要的这种经验,假设不刷题,那你如何判断这个人是否聪明?
fantasist 写了: 2025年 8月 14日 10:39所以世界上只有一家ds。招一堆顶校的聪明年轻人,让他们自己形成顶尖团队,这个只敢梦里想象一下。我们对很聪明的newgrad已经放宽要求了,不要scaling的经验,训过模型能讲清楚就行。不过这样的人OA也喜欢呀,碰到过被抢走的。
而几年经验到很senior的,不提高bar怎么办。狂吹lead了多少项目,实际没有模型训练经验的大厂或学术圈混子太多了,招几个这样的人进来赌可以培养成能干活的人,说不定没几个月我们组全滚蛋了。
公司一般自己雇人干这个。
数据为王。让外人接触自己的数据有一定风险,把数据给你了让你训,你拿数据跑路咋办,或者你把模型直接自己拿来卖,他们不是打水漂了么。
不懂就问。LLM出成绩的前提是Scaling,所谓大力出奇迹。所以全球只有两只手数的过来的大厂才有可能有所作为。
中厂搞LLM的动机俺猜是内部爬梯子、外部搏眼球(提升股价等等)。
那么小厂搞LLM是啥幺蛾子?万一哪里捡个漏然后等着被大厂收购?就像曾经红极一时的众多自动驾驶公司那样?
别小看newgrad,来我们这面试的有在deepmind/OA这种地方实习过,有一定相关经验的。还有顶校科班phd特别是ucb的,那些ml sys lab水平很高,可能没体验过特别大的scale但做的很深,真正有full stack understanding,比工业界的senior调包侠强多了。
判断一个人是否聪明主要看反应速度,问一个问题能立刻反应过来然后回复到点子上,与行业关系不大。肯定有不善言辞的聪明人,但碰到这种super sharp ng一定会被impress到,聊一会儿就想立刻招进来一起工作。
就是想被acquahire
iDude 写了: 2025年 8月 14日 13:41不懂就问。LLM出成绩的前提是Scaling,所谓大力出奇迹。所以全球只有两只手数的过来的大厂才有可能有所作为。
中厂搞LLM的动机俺猜是内部爬梯子、外部搏眼球(提升股价等等)。
那么小厂搞LLM是啥幺蛾子?万一哪里捡个漏然后等着被大厂收购?就像曾经红极一时的众多自动驾驶公司那样?
hci 写了: 2025年 8月 14日 13:41公司一般自己雇人干这个。
数据为王。让外人接触自己的数据有一定风险,把数据给你了让你训,你拿数据跑路咋办,或者你把模型直接自己拿来卖,他们不是打水漂了么。
肯定先签保密协议了。不然当年Google怎么能把自己的Search Engine卖给各大公司内部使用。
你说的, 不就是我上面提到的那个公司的情况么?人家招的一水谭府和颗粒的ML组出来的小孩。可人家就是用“transformer的性质“来作为第一轮的筛选的问题的。整个面试流程,我根本就连代码都没有见到过一次。
我觉得这个公司比你的那个要更靠谱,人家已经有垄断市场的独有模型了,还是cash flow positive。领导层也好,3个创始人:一个商业人士与硅谷大佬是好基友,一个谭府ML PhD dropout,一个行业专家。
fantasist 写了: 2025年 8月 14日 13:41别小看newgrad,来我们这面试的有在deepmind/OA这种地方实习过,有一定相关经验的。还有顶校科班phd特别是ucb的,那些ml sys lab水平很高,可能没体验过特别大的scale但做的很深,真正有full stack understanding,比工业界的senior调包侠强多了。
判断一个人是否聪明主要看反应速度,问一个问题能立刻反应过来然后回复到点子上,与行业关系不大。肯定有不善言辞的聪明人,但碰到这种super sharp ng一定会被impress到,聊一会儿就想立刻招进来一起工作。
lc的主要问题是有些算法在工作中完全不会用到,刷这些题完全是浪费时间,尤其是刷过的几行能写出来而没见过的根本不可能当场想出来optimal solution。我比较喜欢的题目是实现一个简化版的实际需求,不会太难但有足够的区分度。
hci 写了: 2025年 8月 14日 13:41公司一般自己雇人干这个。
数据为王。让外人接触自己的数据有一定风险,把数据给你了让你训,你拿数据跑路咋办,或者你把模型直接自己拿来卖,他们不是打水漂了么。
这个自己干风险更大。没有经验,几百万打水漂。
hci 写了: 2025年 8月 14日 13:48你说的, 不就是我上面提到的那个公司的情况么?人家招的一水谭府和颗粒的ML组出来的小孩。可人家就是用“transformer的性质“来作为第一轮的筛选的问题的。整个面试流程,我根本就连代码都没有见到过一次。
我觉得这个公司比你的那个要更靠谱,人家已经有垄断市场的独有模型了,还是cash flow positive.
“人家招的一水谭府和颗粒的ML组出来的小孩” 这种类似于quant公司,目标是一开始就挣钱,都是有小圈子的,就像deepseek一样。你就算能混进去也不会舒服的,因为多半文化合不来。我之前有一个这类startup的offer,钱给的更多,但最终还是选择了人员结构更diverse的现公司。
虽然心动,想去面一波,但wlb是big concern。在这几家核心组的朋友都是007,压力巨大,跟我们组一个跑路的聊了几次真心劝退。我觉得现在这公司已经够忙了,再加码身体吃不消,平时带娃还要耗不少时间,卷不动。当年在meta也因为wlb的concern没考虑去做推荐系统,错过了公司的最大红利期。如果性格不适合去最卷的地方拼,看别人吃香喝辣心态放平就好,想办法喝口汤。
别急着吹自己是 GenAI researcher 啊,能不能先把 Megatron-LM 的 sequence parallel 代码读完?别老拿 huggingface 的 Trainer 当作你实现了 distributed training,好吗?
你说你做过 long context training,结果一问 EP rank 怎么通信直接 silent token,你这是 GPT-哑了吗?
还有那些简历上写着 improved model convergence 的,面到我这儿,先来个 flash attention kernel 改版试试,看看你是 torch.compile 派还是真的懂 CUDA warp 的那派。
真训过几百 B 模型的人,聊 scaling law 的时候眼睛是发光的,只训过几 B 模型的人,聊 scaling law 的时候眼神是飘的。
最后提醒一句,parameter count ≠ capability,简历 keyword count ≠ capability
祝你招聘顺利
hci 写了: 2025年 8月 14日 13:41公司一般自己雇人干这个。
数据为王。让外人接触自己的数据有一定风险,把数据给你了让你训,你拿数据跑路咋办,或者你把模型直接自己拿来卖,他们不是打水漂了么。
或者开发这类的服务平台如何?
平台可以提供一些训练的一条龙服务。本身不直接接触数据。利用Trusted computing environment