2017年,哪些机器学习领域的知识技能最具有价值?Quora上有两个回答,共提到10个最重要的机器学习技能。以下是译文。
一、来自Vladimir Novakovski的回答:
对机器学习做出最大贡献的通常都是通才。特别是在2017年,有很多关于机器学习的大肆炒作。很多求职者在网上学习一些深度学习的课程,这让我想起20世纪90年代时,有很多人不去读计算机科学教材,而是去读一些号称“20天学会VBScript”的速成书籍。(其实今天依然有这样的人)
依旧重要的技能包括:(a)了解统计学、优化、建立量化模型的基本原理;(b)了解模型和数据分析是如何实际应用到产品和业务中的。
除了上述两点以外,以下几点技能在2017年也至关重要:
- 知道如何编写高质量的软件。 一个团队编写质量垃圾的软件,另一个团队负责完善的时代已经过去了。使用Python和R这样的编程语言和它们的软件包,可以轻松处理数据和模型,因此数据科学家和机器学习工程师应该能够具备较高水平的编程能力,并了解系统设计的基础知识。
- 使用大型数据集。虽然“大数据”这个术语使用的太过频繁,但数据存储的成本确实呈现急剧下降趋势。这意味着愈来愈多的来自不同领域的数据集在处理和应用模型。
是的,一旦你对一些知识有基本的理解和相应的技术水平后,了解至少一个热门领域,例如计算机视觉和感知的深度学习、推荐引擎、NLP(自然语言处理)等,都会对你大有裨益。
二、来自Shivam Kohli 的回答:
技能#1:编程
这也许是数据科学家必备的最基本的技能——数据科学家的工作要比传统统计学家的工作实际的多。编程在许多方面都很重要,包括以下三点:
- 编程能增强你做数据统计的能力。如果你有一大堆统计数据,但却没有办法去处理,那么你的统计知识将无用武之地。
- 编程能使你有分析大型数据集的能力。你在业界工作的数据集并不像样本iris数据集(Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。)那么小可爱,你能轻松获得数以百万计甚至更多的数据。
- 通过编程,你可以创建更好的数据处理工具。这包括建立数据的可视化系统,创建自动分析实验的框架,以及管理公司的数据流,以便所需的数据可以手到擒来。
技能#2:定量分析
定量分析是数据科学家必备的核心技能。数据科学的大部分内容是通过分析自然科学和实验所产生的数据来理解一个特别复杂的科学系统的行为。定量分析技能在许多方面都很重要,包括以下三点:
- 试验设计和分析:特别是对从事消费互联网应用的数据科学家—数据记录的方式和实验的运行方式,为大量的实验测试各种假设提供了途径。实验分析是很可能出错的(这一点可以询问任何统计学家),因此,在这方面,数据科学家可以提供很多帮助。
- 复杂型经济/增长系统建模:一些经典建模是较为常见的,如客户流失模型或客户终身价值模型。更复杂的建模,如供应和需求建模,匹配供应商和供应商之间经济最优方法,以及建模公司的增长渠道,来更好的量化分析哪些增长途径最有价值。最著名的例子是Uber的价格飙升建模。
- 机器学习:即使没有实现机器学习模型,对于数据科学家来说,他们也可以提供帮助创建原型来测试假设,选择和创造的功能,以及判定现有机器学习系统中的优势和在该领域的机会。
哪些数据科学领域的人员对这项技能最有需求呢?1。物理学家2。统计学家3。经济学家4。运筹学家5。更多,他们非常习惯通过自上而下的方法(模型)或自下而上的方法来理解复杂的系统(数据推断)。
技能#3:产品直觉
产品直觉是一种技能,它与数据科学家对系统进行定量分析的能力有关。产品知识意味着要理解生成数据科学家分析的所有数据的复杂系统。这个技能的重要性体现在:
- 产生假设:一个非常了解产品的数据科学家可以用一种特定的方式改变系统的行为方式。假设是基于“预感”关于系统的某些方面如何表现,你需要知道系统对它是如何工作的有预感。
- 定义度量标准:传统的分析技能集包括确定公司可以用来跟踪特定目标成功的主要和次要指标。数据科学家需要了解产品,以便创建两个产品指标:1。衡量意图2。衡量具有推动价值的东西。
- 调试分析:“难以置信”的结果常常是由于系统的“令人难以置信”的特性而引起的。良好的产品知识有助于提升产品检查速度,帮助更快地识别出可能出错的东西。
产品知识通常包括使用公司创造的产品。如果那是不可能的,那么至少试着去了解那些实际使用产品的人。
技能#4:沟通能力
这项技能很重要,有助于显著提高上述所有技能的影响力。这一点特别重要,是区别好的数据科学家和伟大的数据科学家的重要标准。良好的沟通可以以多种方式体现,包括:
- 沟通见解:一些数据科学家将其称之为“讲故事”。这里最重要的是以清晰、简明和有效的方式交流见解,以便公司中的其他人能够有效地理解这些见解。
- 数据可视化呈现:一幅清楚明晰的图表胜过千言万语。
- 总体沟通:作为一名数据科学家,几乎总是意味着作为一个团队在工作,包括与工程师、设计师、产品经理、运营人员以及更多的角色合作。良好的总体沟通有助于促进信任和理解,对于被委托管理数据的人来说,这是极其重要的。
技能#5:团队合作
最后这项技能将以上4个技能连接起来。特别是数据科学家不能孤立地存在,要依靠团队工作。从我所看到的,数据科学家深入到公司的方方面面(或者至少存在于产品开发组织中)时,结果做得最好。
团队合作之所以重要,有很多原因,包括:
- 无私:这包括为他人提供帮助和指导,并将公司的使命放在自己的个人职业生涯野心之上。
- 不断迭代:数据科学家重视反馈,他们的大部分工作都需要与其他人进行反复迭代和反馈,以达成有影响力的解决方案。
- 与他人分享知识:由于数据科学职业是一个新近出现的工作,基本上没有人具备完整的技能,尤其是当你需要收集所有可能有用的统计技术、框架、库、语言和工具时。由于知识可能分散在不同数据科学家及其组织中,因此对于数据科学家来说,不断地分享他们的知识、方法和成果尤其有用。