为什么会说Data内卷?     |只看干货

统计/生物统计/精算/数据科学/机器学习(含深度学习和强化学习)
本版讨论各种专业问题,相关职业问题,转专业问题,以及机器学习在各个学科的应用。

版主: SOD

回复
头像
SOD楼主
论坛元老
论坛元老
SOD 的博客
帖子: 17798
注册时间: 2022年 7月 23日 22:53

为什么会说Data内卷?     |只看干货

帖子 SOD楼主 »

为什么会说Data内卷?     |只看干货

staftermath 2021-9-19 15:05:11 | 只看该作者

- 想问问大家都是因为什么想要转ds (4 天前)
- 中年转行(Data Scientist)梦想实现篇 (4 天前)
- DA转SDE需要多久? (4 天前)


发现居然有这么一个话题,在这个话题下看到不少说Data内卷的。作为一个相关行业的人,希望能抛砖引玉一下。

首先不太习惯统称Data。我一看是看到这个标签以为是做数据的(Data Engineer)还挺惊讶什么时候DE也有人说内卷了。看了几篇文章之后发现说的是Data science track的。并且更多的是说data analysis。从我个人的角度来看,DA/DS/MLE这个行业从来都没内卷过,或者说,从来都是这么竞争激烈。只不过随着大流名字换了而已。20年前叫BI,后来叫DA,现在直接叫DS了。然后各式各样的DS都放一起,大家就觉得这要求这么高,简历都过不去,卷的厉害。我以前在不少地方也提到过,一些大厂硬生生把DA也叫DS,搞得很多人都很焦虑。一些人认为Title叫DS以后可能好找工作,其实不一定,时间长了大家都明白。可能5,6年前看JD上说DS还有不少人认为是做ML甚至AI,现在DS职位基本上就是DA,工作依然难找。所以并不是卷的厉害,其实只是职位名字换了一个,让很多人很迷惑而已。

当然我要强调一下,DA, DS, MLE什么的,各人有各人的爱好和目标,没有高下之分。我个人对这三个方向的需求并没有饱和太多,我甚至可以说,随着行业的成熟,对各个方向的人才的需求反而更强烈,只是现在公司都很清楚他们要什么。你如果一个半吊子进去,一面就被揪出来了。Tech行业讲究的是与时俱进,是你懂的新东西和新毕业生懂的新东西比起来是不是更多更精。作为DS,当年面试问SVM,手搓KNN,深挖additive models不是罕见的事情,现在业界基本没人用SVM,KNN基本上也就个baseline,additive models是什么?会熟练安装使用lightgbm, xgboost就行,管他是不是additive。卷吗?这么一看感觉要求的还更少了。

你想有竞争力,长远来看只能提高自身知识水平,一方面来说get out of your comfort zone。不要认为我就想做这个,就完全不考虑其他的。别老在鸡毛蒜皮的地方研究回字的几种写法,KNN几种初始化方法,SVM kernel哪家强之类的。作为DA,多学学ML, 作为DS,多关心一下business和deployment,作为MLE,自己也想办法做做DA, DS的事情从他们角度来设计你的框架。

另一方面来说也要明白各个方向的贡献具体在哪儿,强化自己在那些方面的能力,不要以为光知道一些其他方向的知识,就对本方向有决定性优势了:. 1point3acres.com

以前可能觉得作为一个DA,我还懂点boosting tree,所以我更有优势。公司可能也以为赚到了一个能做各种东西的人。现在组里面可能完全不关心你会不会boosting tree,你这点优势就没有意义,你要明白你的分析怎么能帮助其他人,比如怎么通过分析找出一些feature。
以前可能作为一个DS,我会写点shell script,除了写python script我居然还会写OOP代码,所以我更牛逼。现在有些公司可能只要求你会调参做POC,不关心你这半吊子的python代码,deploy扔给MLE,所以你这点优势可能又没意义了。
以前作为MLE可能会jenkins就飞起了,所有CI/CD可能还得自己搭,写个robust的流水线可牛逼了。现在这种framework满天飞,说不定写个config就能行。而你需要想办法适应组里DS做的东西来优化和部署模型,你的优势可能还不如一个跟DS聊的溜的人。
你找工时候永远会看到自己更喜欢的职位要求更高,觉得明明自己已经很有经验了,为什么还找不到合适的。你永远在找更senior的职位,所以永远会觉得要求怎么越来越高,前几年似乎没那么高。从我个人的找工作经验来看(MLE),我会觉得为什么所有看到的都是DS?对口的职位那么少。之前更想做模型的时候,我会觉得为什么那么多职位都是DA,A/B testing,SQL。但是真的一路走过来的人会发现,前几年做A,B,C时候需要花很大力气,现在什么都有现成的工具,组里面的process也越来越完善,做起来其实比之前简单的多。所以DA, DS和MLE其实是都在把以前的process标准化,从而研究更新的需求。就算是新人进去,你要做的也仅仅是学习标准化的流程,等你学完了,你也接触到了更新的需求和解决方案,你也差不多要去下一步了。.--


最后补充一句,如果你的爱好是做技术,千万要注意不要太花时间在non-transferable的知识上,除非你就想做业务,不然永远要增强自己技术。技术能在另一行使用,business knowledge不行。作为做tech的,路子不要走死,行业会死,技术只会更新,打好底子,学新技术举一反三没有问题。. From 1point 3a
此生无悔入华夏,家住加利福利亚

图片
头像
SOD楼主
论坛元老
论坛元老
SOD 的博客
帖子: 17798
注册时间: 2022年 7月 23日 22:53

Re: 为什么会说Data内卷?     |只看干货

帖子 SOD楼主 »

Xiavi422 2021-9-19 22:52:16 | 只看该作者

补充楼主最后一段,如果目标和兴趣是往 DS 走,建议 domain knowledge 要好好抓紧,当许多 Data Scientists 技能都类似时,拥有 business acumen 会让你脱颖而出,而这不是只花几个礼拜学习 product sense 就能掌握的。
回复评分 拉黑 举报



矿大男神 2021-9-20 02:20:20 | 只看该作者

Data 其实很好,例如AMZ的AS和MLE,DS工资不比一般的码农低,你觉得卷可能因为:
1.需求并不高,因为不同于码农的搬砖属性,data需要domain knowledge解释你的模型,一个好的模型可以给公司带来数以万计的效益。
2.Data的bar不低,由于刷题比例在data面试的比重较低,所以就只能看学历、看工作经历等等. 1point3acres
3.一般有一定规模的企业才需要data,毕竟和数据打交道,大企业才有大数据,所以岗位也不算太多。. 1point3acres.com
4.转data的很多,例如生物转data,金融转data,这些人不乏名校phd
5.求加米。
6.谢谢


staftermath 2021-9-19 23:57:33 | 只看该作者

补充楼主最后一段,如果目标和兴趣是往 DS 走,建议 domain knowledge 要好好抓紧,当许多 Data Scientists ...
这个见仁见智,以下纯属个人喜好请勿盲目参考:

domain knowledge几个月内学下来没什么问题。我个人只会花足够时间了解需要了解的部分。到需要用到相关知识时候再问。如果组里面没有提供足够的资料让员工去参考学习相关知识,这是组里面的失职。

另外如果我面试时候会稍微了解一下对应的domain knowledge, 但是面试官认为需要更多的domain knowledge才行,我一般就直接停止面试了,这种职位相关性太强,一个萝卜一个坑,反正我不是那萝卜。

我个人还是认为作为一个DS,在决定在一个行业走到头之前,不要一直在一个domain里面堆经验,路子会走的很窄。
我所说的domain knowledge不是说那些适用性很强的,比如有什么常见的方法提高CTR,而是像那种“我们公司数据录入的常规操作是ABC,用户资料一般存在DEF”,或者“银行放贷的基本程序是什么,有那些环节风险比较大”。
.--
当然,如果非常相关的职位,你如果经验丰富,怎么做方案头头是道,肯定是一个巨大的plus。很多行业会需要这样的条件才会给管理层的offer。不过话又说回来了,都做到那份上了,根本不会担心内卷的问题。
此生无悔入华夏,家住加利福利亚

图片
头像
SOD楼主
论坛元老
论坛元老
SOD 的博客
帖子: 17798
注册时间: 2022年 7月 23日 22:53

Re: 为什么会说Data内卷?     |只看干货

帖子 SOD楼主 »

staftermath 2021-9-20 12:34:29 | 只看该作者

懂技术容易,懂业务难,要一辈子做技术你就去学技术,要往上走,你就去钻业务
我不排斥专心业务的人。术业有专精,人各有所好。但是认为往上走就需要去钻业务,这我不能苟同。

我认为business和product是两种东西。我可能不十分关心business,但是我十分关心我做出来的product是不是好,是不是符合用户的需求,或者是不是给用户提供了他们也没想到但是很好用的功能。business是考虑怎么增长,怎么盈利,等等。如果钻业务只是考虑后者,我个人无法赞同。

另外我见过太多认为懂技术容易的人,很多只是说的多,技术和业务两个都做不好。低估任何一项专业都是不可取的。
此生无悔入华夏,家住加利福利亚

图片
回复

回到 “统计与数据科学(Statistics & DataScience)”