数据科学家的挫折
是的,我是数据科学家。
我们读了很多关于数据科学是21世纪最性感的工作的故事,以及作为一个数据科学家人你可以赚到的诱人的钱,这看起来像是一份绝对理想的工作。
考虑到这个领域有大量高技能的人专门去解决复杂的问题(是的,“专门去”是一件积极的事情),这份工作有很多值得热爱的地方。
但事实是,正如英国《金融时报》这篇文章所述,数据科学家通常“每周花1-2小时寻找新工作”。
此外,文章还指出,“机器学习专家在开发者名单中排名第一,占14.3%。数据科学家紧随其后,为13.2%。”这些数据是由堆栈溢出在基于6.4万名开发人员的调查中收集的。 我也是如此,最近我自己也换了数据科学工作。 那么为什么这么多数据科学家在寻找新的工作呢?
在回答这个问题之前,我应该澄清一下,我仍然是一个数据科学家人。总的来说,我喜欢这份工作,我不想阻止其他人渴望成为数据科学家,因为这份工作有趣、刺激且有回报。这篇文章的目的是唱反调,揭露这项工作的一些负面影响。 在我看来,我认为许多数据科学家对他们的工作不满意有四大原因。
期望与现实不符
我认识的许多初级数据科学家(包括我自己)都想进入数据科学领域,因为这一切都是为了用对企业产生巨大影响的全新机器学习算法来解决复杂的问题。
这是一个机会,让我们觉得我们正在做的工作比我们以前做过的任何事情都重要。然而,情况往往并非如此。 在我看来,期望与现实不符的事实是许多数据科学家离开的最终原因。这有很多原因,我不能列一个详尽的清单,但这篇文章基本上是我遇到的一些原因的清单。
每家公司都不一样,所以我不能代表他们所有人,除了许多公司雇佣没有合适基础设施的数据科学家来开始从人工智能中获取价值。
这导致了人工智能中的冷启动问题。再加上这些公司在雇用初级员工之前没有雇用资深/有经验的数据从业者,你现在已经为双方找到了一个幻灭和不愉快的关系的秘诀。
数据科学家人可能是来编写智能机器学习算法来提高洞察力的,但他们不能这样做,因为他们的第一项工作是整理数据基础设施或创建分析报告。
相比之下,该公司只想要一张他们可以每天在董事会上展示的图表。然后公司会感到沮丧,因为他们认为价值没有被足够快地驱动,所有这些导致数据科学家对他们的角色不满意。
罗伯特·张在他的博客文章中给初级数据科学家提出了一个非常有见地的建议: 重要的是要评估我们的愿望与我们所处环境的关键路径有多一致。寻找关键路径与你的最一致的项目、团队和公司。
这突出了雇主和数据科学家之间的双向关系。如果公司不在正确的地方,或者目标与数据科学家一致,那么数据科学家找到其他东西只是时间问题。
对于那些感兴趣的人来说,胡参孙有一个关于分析团队如何在Wish建立的精彩系列,我也觉得非常有见地。
数据科学家失望的另一个原因与我对学术界失望的原因相似:我相信我将能够对世界各地的人们产生巨大的影响,而不仅仅是在公司内部。
事实上,如果公司的核心业务不是机器学习(我以前的雇主是一家媒体出版公司),那么你所做的数据科学很可能只会带来微小的增量收益。这些可以累积成一些非常重要的东西,或者你可能幸运地偶然发现了一个金矿项目,但这并不常见。
政治至高无上
《政治》杂志已经有一篇精彩的文章专门讨论这个问题:数据科学中最难的事情:政治,我敦促你阅读它。
那篇文章的前几句话差不多概括了我想说的话: 当我早上6点醒来学习支持向量机时,我想:“这真的很难!但是,嘿,至少我会对我未来的雇主变得非常有价值!”。
如果我能得到德洛尔,我会回到过去,打电话给“公牛队”我自己。 如果你真的认为知道很多机器学习算法会让你成为最有价值的数据科学家,那么回到我上面的第一点:期望与现实不符。
事实是,商界最有影响力的人需要对你有一个好的印象。这可能意味着你必须不断地做一些特别的工作,比如从数据库中获取数字,在合适的时间给合适的人,做简单的项目,这样合适的人才会对你有正确的看法。在我以前的地方,我不得不经常这样做。尽管令人沮丧,但这是工作中不可或缺的一部分。
对于任何数据,你都是最直接的人
在做任何事情取悦合适的人之后,那些有影响力的人往往不明白“数据科学家”是什么意思。这意味着你将成为分析专家,也将成为报告专家,别忘了你也将成为数据库专家。 对你的技能做出过多假设的不只是非技术高管。
技术领域的其他同事认为你知道所有相关的数据。你知道你在Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、r、Scala、Tensorflow、A/B测试、NLP、任何机器学习(以及任何其他你能想到的与of — BTW有关的数据,如果你看到一份写有所有这些内容的工作规范,请保持清晰。
这是一家公司的工作规范,该公司不知道他们的数据策略是什么,他们会雇用任何人,因为他们认为雇用任何数据人员都可以解决他们所有的数据问题)。
但它并没有就此止步。因为你知道所有这些,而且你显然可以访问所有的数据,所以你应该能够通过……得到所有问题的答案。
嗯,它应该在5分钟前到达相关人员的收件箱。 试图告诉每个人你实际知道和控制的事情可能很难。不是因为实际上有人会对你不以为然,而是因为作为一个没有什么行业经验的年轻数据科学家人,你会担心人们会对你不以为然。这可能是一个相当困难的情况。
在孤立的团队中工作
当我们看到成功的数据产品时,我们通常会看到经过专业设计的用户界面,它具有智能功能,最重要的是,它是一种有用的输出,至少用户可以通过它来解决相关的问题。
现在,如果一个数据科学家人只花时间学习如何编写和执行机器学习算法,那么他们只能是团队中的一小部分(尽管是必要的),这将导致一个生产有价值产品的项目的成功。这意味着独立工作的数据科学团队将难以提供价值!
尽管如此,许多公司仍然有数据科学团队,他们提出自己的项目并编写代码来尝试解决问题。在某些情况下,这就足够了。
例如,如果所需要的只是一个每季度制作一次的静态电子表格,那么它可以提供一些价值。另一方面,如果目标是在定制的网站构建产品中优化提供智能建议,那么这将涉及许多不同的技能,绝大多数数据科学家不应该期望这些技能(只有真正的数据科学独角兽才能解决这个问题)。
因此,如果项目由一个独立的数据科学团队承担,它很可能会失败(或者需要很长时间,因为在大型企业中组织独立的团队来从事协作项目并不容易)。
因此,要成为一个有效的数据科学家,仅仅在Kaggle比赛中表现出色并完成一些在线课程是不够的。幸运的是(取决于你对它的看法),它涉及到理解等级制度和政治在商业中是如何运作的。
在寻找一份能满足你需求的数据科学工作时,找到一家与你的关键路径相一致的公司应该是一个关键目标。然而,您可能仍然需要重新调整您对数据科学角色的期望。