本文转载自公众号“读芯术”(ID:AI_Discovery)。
“这一刻你正在应对什么挑战?”这位前研究学者回应道:“嗯,我好像应聘成为首席数据科学家了,在一个没有数据的公司里。”
这件事让人啼笑皆非。离开了数据,数据科学家的存在毫无意义。这可不是件个例。本文将讨论一些胸怀大志的数据科学家们(以及他们将来的雇主)真正需要了解的事情。
什么是数据工程?
如果数据科学是让数据变得有用的一门学科,那么可以想像数据工程是将数据变得能用的一门学问。数据工程师们是提供幕后基础设施支持的英雄们,这些基础设施让机器能够记录工作,让海量的数据与数据科学工具包兼容储存。
图源:LinkedIn
与数据科学家不同,数据工程师们更倾向于不花费那么多的时间研究数据。与此相反,他们研究并处理那些承载数据的基础设施。数据科学家是数据的管理者,而数据工程师们是对数据管道进行管理的人。
图源:hackernoon
数据工程有三种主要工作方式:
- 使数据大规模地储存(数据库)和传输(数据管道)。
- 维护那些支持企业运作的数据流。
- 为数据科学提供数据集。
如果没有数据,你无法研究数据科学。如果你被一个没有数据和数据工程的机构聘用为数据科学总监,猜猜谁将会成为一名数据工程师?
数据工程的艰难之处在哪?
食品进购是件简单的事,如果你只是煮你一个人的晚餐还好说,但规模扩大会将这件琐事变得复杂无比——你该如何获得,存储和处理20吨的冰淇淋,且让它一点都没有融化?
相似地,“数据工程”在你为学校项目下载一个小的电子数据表时是相当容易的,但当你在处理千万亿字节规模的文件时就会让人头晕眼花。规模使其本身成为一个复杂的工程学科。
图源:pixabay
不幸的是,了解这两个学科其中之一并不代表着你就对另一个的知识有所了解。
如果你有了跑去学习两个学科的冲动,你可能成为了那个(令人倍有压力且适得其反的)信念的受害者——数据专家们必须对数据的所有事项都有所了解。数据宇宙正在飞速地扩展着,现在是时候让人们意识到这个领域有多么广阔了,在数据领域的某个领域工作并不自动要求人们去成为全知全能的专家。
讲这么多就是为了说明,这门学科包含了太多的知识,以至于最有决心的天才也无法全部理解和掌握。与其希望数据工程师们全知全能,不如问问彼此(也问问自己),“你是哪一类人?”让我们齐心协力一起工作,而不是在这条路上孤军奋斗。
但这不是一个绝佳的学习机会吗?可能是。这取决于你对已知的学问有多大的感情。数据工程不同于数据科学,所以如果你是个未经受过数据工程训练的数据科学家,那么你得从零开始。
这可能正是你所寻求的乐趣——只要你带着开放的眼光一路前行。建立你的数据工程团队可能要花费好几年的时间。当然,有理由去学习新事物是件好事,但相同的是,你的数据科学“肌肉”可能会因此萎缩。
作为一个类比,想象你是一位能流利使用英日两语的译者。你被提供了一个叫做“译者”的职位。当你来到岗位工作时,你发现你被聘来进行将普通话译为斯瓦希里语的工作,而这两种语言你都不会说。抓住机会成为一个四语达人可能是一件振奋人心且有益的事情,但请从现实的角度来思考你该如何有效地利用初级培训。
换句话来说,如果一个公司没有任何的数据或者数据工程师,那么接受首席数据科学家的工作会在你组建数据工程团队时,为了成为一个数据工程师(你很可能还未达标),将你的数据科学家生涯搁置好几年的时间。
最终,你会很骄傲地看着你所建的团队,然后意识到你不再需要亲自去处理那些细枝末节。那时你的团队已经能够成熟应对那些绝妙的神经网络或者你读博时研究的复杂巧妙的贝叶斯定理推论,你就只能袖手旁观,看着他人完成目标。
给你一些小建议
(1) 弄清你正在接手的事物
如果你在考虑接受一个成为数据科学总管的工作,你第一个应该提出的问题是:“谁来保证我的团队有数据能研究?”如果答案是你,嗯,至少你将知道自己的签约将意味着什么。
(2) 请记住你是顾客
既然数据科学受数据支配,只有数据工程师们作为同事可能并不够。如果那些同事们没能将你认定为他们工作的一个关键客户,你将面对的是一个艰难的斗争。如果他们的态度让你更多的感受到自己是一个博物馆策展人,为了数据而保存数据,那这可不是一个好兆头。
(3) 要有全局观
诚然你是数据工程师们的关键客户,但很可能你并不是他们的唯一客户。现代企业使用数据推动业务发展,通常情况下,无需人为干预,数据就能很好地运转。当你对公司的贡献只是“可有可无”时,表现得好像世界都是围绕着你和你的团队转的,这是不明智的。
(4) 坚持问责
在登记你新的十亿字节之前,考虑与数据工程同事协商,让他们对与你的合作负责。如果他们没有将你拒之门外的反应,你的团队就不太可能蓬勃发展。