本文转载自公众号“读芯术”(ID:AI_Discovery)
你是否想过亚马逊、甚至Netflix是如何做到不停地为用户推荐产品的?与大众认为的截然不同,它们不适用于Skynet,随时遇到故障是不太可能的。
相反,它们依赖于最受欢迎的人工智能技术之一——机器学习。随着技术进步,人们对机器学习和数据分析的需求一直居高不下。几乎没有哪个行业在交易中不涉及机器学习,机器学习算法应用范围极其广泛。
从使计算机与人类交流成为可能,到撰写和发表体育报告,机器学习可以做很多事情。
先下面看看这些年来它的发展历程。
- 1950: 艾伦·图灵提出了“图灵测试”,以判断计算机能否真正比人类“智高一筹”。
- 1952: 亚瑟·塞缪尔用一台IBM 计算机研究和发展棋盘游戏,发明了首个计算机学习程序。
- 2006:杰弗里·辛顿诠释了让计算机在图像和视频中“查看”和区分对象和文本的新算法,“深度学习”这一术语也应运而生。
- 2012: 通过浏览油管识别其中有猫的视频,Google’s X Lab 成为最大的猫咪追踪器。
- 2015年及之后: 随着人工智能技术日益发达,其数据可在公开网站上获得,斯蒂芬·霍金、埃隆·马斯克、史蒂夫·沃兹尼亚克、马克·扎克伯格等人对正直和信任在社会影响层面的真正意义上进行争论。
在人工智能时代,我们有机器人、自动驾驶汽车、可以进行口头交流的自动拨号电话、管控我们房屋的智能IoT(物联网)服务,以及在做饭时突然问我们问题的Alexa智能助理。
一天,13岁的妹妹问我:“为什么我还需要驾驶证?这既浪费时间也浪费钱。等到我能够驾驶的时候,汽车已经能够自动驾驶了。”我意识到她说的可能没错,同时也有些向往汽车能实现自动驾驶的生活,那时我将永远不会浪费时间或者钱来学习驾驶。
现在,当我们试图将数据应用于可消费和可生产的产品中时,数据成为了前所未有的新“石油工业”和“淘金热”。这也确实是机器学习发挥作用的地方。
机器学习有机会改善许多行业!
《福布斯》表明,到2020年,机器学习有可能在市场营销和销售中创造额外的2.6万亿美元,这还不包括制造业的2万亿美元。
如果这还不足以震惊你,这儿还有不断发展的市场和数据量。公司一直在寻找成本更低且功能更强大的计算处理方式,更不用说具有成本效益的数据存储了。
通过分析数据和构建精确的模型,企业若不能将其增长翻三番,也至少可以翻倍。机器学习具有强大的能力,可以帮助组织识别有利可图的机会并避免风险。
微软需求优化主管Anirban Sengupta谈到了机器学习的重要性:
“随着我在亚马逊职业生涯的发展(所面临的问题),与传统的统计和计量经济学建模法相比,机器学习是更为明显的解决方法。例如,使用参数统计模型很难实时检测欺诈行为。其功能数量繁多,并且它们之间存在相互作用。
同样,在这些情况下,预测准确性/精确性/召回率比模型可解释性更重要,这使得机器学习成为更为明智的选择。
机器学习将会发展下去。同样,数据投资正在增长且将继续增长下去。对于数据和数据基础架构投资的目标是挖掘这些数据,从中获取可操作性见解,以推动业务价值。对于能够真正进行如此复杂的数据分析和大规模模型构建的人才的需求也将只增不减。”
机器学习如何影响多个行业
医疗保健
实际上,机器学习的使用已成为医疗保健领域的一种增长趋势,并带来了一些极具吸引力的应用。
位于美国马萨诸塞州的PathAI借助机器学习,提出了一项新技术,这将帮助病理学家更快地进行诊断。
别小瞧它,它可以解决医院人满为患的情况,并使患者更快地接受治疗。尤其是患有癌症等疾病的患者,早期诊断能够使结果大有不同。
金融业
随着我们逐渐转向在线交易方式,金融行业的银行和其他企业对机器学习可以提供的实时数据分析的需求也越来越大网络监控和欺诈预防应用程序可以为投资者提供安全保障,使他们能够轻松地进行交易。
IdentityMind Global是一家人工智能公司,可帮助金融机构和企业打击在线欺诈行为。该公司已建立50多个数据点,可帮助验证人的身份。此外,他们还提供打击洗钱和反恐融资的服务。
能源部门
多年来,环保主义者一直在要求更清洁的能源。更不用说,每当我们转身时,都会出现另一场天然气危机。
石油和天然气是机器学习拥有无限可能的另一个领域。从创建更高效的精炼厂到分析矿物,机器学习可以被应用于其中的无数领域。
美国能源业界著名咨询公司提供的天然气和石油数据可通过开发基于多元模型的资源来改善钻井作业
它们不仅可以为公司提供精确的地质和地球物理数据,而且还可以减少公司在石油业务中所需要的财力和人力资源。
人才需求持续增加!许多工程师患上错失恐惧症(F-O-M-O)
正如我刚开始所说,机器学习不会很快过时。事实是,许多求职网站上与机器学习相关的职位发布数量跃升了90%。
但困难之处在于,整整两个月后,至少有40%的职位依然空缺。由此得知,尽管对机器学习工程师的需求很大,但人才供应是问题所在。
工程师对通用化与专业化存在争论。但需要知道的是,我们采访的大多数行业领导者都希望他们的候选人具有广泛的经验,而不仅仅具备专业领域知识。
大多数经理、董事和CTO都非常明确地表明,他们希望员工能主动将机器学习经验应用到各种项目中,而不必局限于个人擅长的领域。
如果你专门研究对象识别和计算机视觉,请不要拒绝NLP(自然语言处理)项目,因为它仅与前者略有不同。大多数机器学习领导者都认为经典技术在不同项目中都可使用。
公司可能希望其员工偶尔转换一次职位,但并非总是如此。不过,如果能在自己擅长的领域以外获得一些经验,是不会有损失的。
专业化的一些热门领域包括推荐系统(由Facebook等技术巨头使用)、计算机和机器视觉(由Snap、Inc.团队使用)和自然语言处理(苹果的Siri)。
请听听医疗技术公司Change Healthcare 的AI主管Alex Ermolaev所说:“…我认为这有助于一次专注于一个领域,但是每隔几年在不同领域之间切换仍然会带来一些乐趣。一次只专注于一个领域是件好事,因为要花些时间才能精通它,掌握工具使用方法并学习细微差别……”
公司正在寻找在擅长领域表现出色且勇于迎接新挑战的候选人。接受新的挑战并了解公司中的不同领域,这将使你能够跨领域开展不同的项目。最终,你将对多个项目有更多的见解,并了解核心用户和客户。
因此,如果决定踏入机器学习行业,那无疑是朝着正确方向迈出的一步。这是一个快速发展的领域,拥有着不断发展的应用程序。实际上,Google趋势报告表明,机器学习即将在搜索结果领域中取代AI。
不要纠结于陷入过多细节。这确实是一个竞争激烈的市场,每个人都想采取行动,但最终,取决于工作的水准。
将精力集中于获取跨领域的经验,你就能主动学习自我交流。磨练头脑,理性看待整个世界,并提出创新的解决方案,这将使你、你的雇主乃至整个社会受益。
如何成为一名机器学习工程师
看看好莱坞流行的参考词如“Hal”,也难怪人们对机器学习可以提供的可能性有些担忧。值得庆幸的是,当今世界上机器学习的现实与一台具有自尊心问题的杀手式感知计算机差得很远。
机器学习可以极大地改变我们的生活,以至于有些人甚至将其比作工业革命。说到工业革命,你是否知道机器学习使外包焊接等危险工作变得更加容易。工业级焊接中产生的热量、噪音和有毒烟雾,这对工人是巨大的风险。
但是,配备了计算机视觉和深度学习功能的机器人焊机具有更强的灵活性来完成工作,且不会危及生命。
而且这只是机器学习对我们的生活方式产生的积极影响之一。无论是中小型企业还是大型企业,都表现出将向数字化转型纳入其关键计划的意愿。
作为技术招聘人员,我最近有机会采访了机器学习行业的领导者,了解他们对求职者能力的要求。后来我想要知道的是他们加入该领域的动机。是对创新的热爱,还是他们想成为可能改变数百万人生活方式的一份子?
下面是Geocaching数据科学与数据分析负责人LeeSherry关于他为何投身机器学习领域的原因。
“对我来说,没有什么比沉浸于数据和了解新事物的感觉更好了。这要与数字背后的现实联系起来。我喜欢通过数据研究世界,并将复杂的信息提炼成最简单的事实而获得的理解。数据可以是变革性的;它可以被用来克服我们已经学会过,去尽可能简单处理的障碍。”
对我来说,这就是为何许多人发现自己被机器学习吸引的本质。并没有多少人有能力摆脱混乱,但这就是职位描述中包含的内容。
我知道我们都听过这个笑话,“数据已经足够长了,它会告诉你任何事情”,但信任统计数据而不是“直觉”的企业往往会表现更好,这是有缘由的。
像国际数据公司(IDC)这样的公司预测AI支出到2021年将超过500亿美元,这也是有原因的。机器学习已经成为预测未来的方式。
没有任何时代能像现在这样使人们参与其中了。而且,我知道许多人都有兴趣进入机器学习行业,只是他们不是很确定该怎么做。
本文为此可以提供帮助。从所需的教育到面试中的常见错误,我们将揭秘成为ML工程师所需要了解的知识。
硕士学位还是博士学位——哪个更重要?
对ML感兴趣的每个人总是会问一个问题——硕士学位还是博士学位?让我们从这个问题开始。
机器学习工程师学历的不确定性是真实存在的。人们通常想知道硕士学位是否足以使他们找到合适的工作,还是需要获得博士学位作为储备。
理学硕士可以帮助你在许多实际情况下积极贡献。ML的大多数硕士课程都有一种通用的方法,可以帮助学生准备计算机视觉编程、软件设计、语音识别、自然语言处理等主题。该学位课程的重点是提高学生的分析技巧和统计、数学和编程能力。
此时,你可能正在思考,一名理学硕士涉猎已如此广泛,那博士学位能带来什么呢?
尽管博士学位有时会受到抨击,但他们可以在职业生涯中发挥决定性作用。通常,培养博士生不采取通用的方法,它们可以成为基于研究的职业起点。
拥有博士学位,可以推动ML的前沿发展,并专注于开发下一代算法。或者可以将机器学习应用于社会上重要的问题并提出可行的解决方案。
对于AI社区的许多领导者来说,机器学习巨大的一个好处就是能够参与研究和出版,并帮助开源社区开发将要发展到下一代的模型。如果你正在攻读博士学位,毕业前需要先参与到多个出版工作中。对于专注于研发的企业,这是一个非常大的优势。
与我交谈过的不少行业领导者并不要求候选人拥有硕士学位或博士学位。但是,Softmax Data的执行合伙人Jia Chen非常清楚他为什么倾向团队中的人员有较强的学术背景。
他发现具有较强学术背景的人能更好地处理论文和进行研究,丰富的数学经验可以帮助他们实现ML所需的突破。
在ML中,数学直觉和研究技能的重要性不可忽视。像博士学位这样的资格证书是获得此类经验并深入掌握算法内部工作原理的绝佳方法。
训练数据
机器学习是一个不断发展的领域,因此,必备的基本技能涉猎广泛。尽管如此,具有丰富经验的扎实学术背景仍可作为加分项。机器学习的主要技能是统计、概率、编程和数据建模。
这也正是Softmax Data的执行合伙人Jia Chen的想法。当被问及机器学习工程师应具备哪些技能时,陈先生说:“…数据工程、软件开发、数学技能和沟通技能。”
要了解ML中数据建模的重要性,可以看看Geocaching数据科学与数据分析主管Lee Sherry的看法:
“…尽管编程经验很有用,但我认为建模非常重要:机器学习工程师应该知道如何有效地解决问题。这意味着识别一种情况的主要特征,弄清楚如何构建一个能够产生所需答案的问题,确定何种近似方法有意义,并知道适用于当前问题的算法和方法。”
这只是冰山一角。数字、日期和字符串等结构化数据可以轻松地被存储为行和列。而视频、图像和电子邮件等非结构化数据却无法轻松指定。
但是,非结构化数据是数据建模的基础。根据Gartner的数据,它构成了80%的企业数据。在机器学习算法中使用非结构化数据可提供至关重要的见解。它在业务运营策略中具有极大的可适用性。
它可以提高准确性,促进新的思维方式和信息使用方式。
最后,还必须全面了解监督学习和无监督学习。这是两种最流行的机器学习方法。让我们从有监督的学习开始。它是可以使用输入和输出变量的系统,通常你会使用一种算法从数据中确定映射函数。
目标是提出一种精确的映射函数,以便算法在进行新的输入时可以预测结果。
如果技术术语有些沉重,可以这样想——监督学习非常有价值,其中数据在预测未来事件中起着至关重要的作用。金融机构如何利用监督学习来预测可能具有欺诈性的信用卡交易便是一个很好的实例。
另一方面,无监督学习的功能更像是训练集。系统获得输入数据,但没有可比较的输出值,目的是探索数据并发现结果。
在市场营销等领域,无监督学习非常有用,它可以帮助识别客户行为模式。然后,企业可以使用这些模式来建立营销策略,其准确性几乎令人瞠目(如Facebook)。
基本编程技能和经验
朋友可能会告诉你,你所需要的只是一些必要的编程技能,便可以成为一名合格的ML工程师。但是,即使学习基础知识可以帮助您适应ML特定的编程技能,成为一名工程师也可能需要丰富的编程经历。
Change Healthcare的AI主管AlexErmolaev建议ML工程师需要具有构建高性能/可扩展产品的经验、数据管理技能以及构建AI / ML模型或工具的经验。
全球最流行的编程语言是Python、JavaScript和C ++等。通常,Python是首选的数据分析工具,而C ++是深度学习和计算机视觉的必备工具。选择使用的编程语言在一定程度上会影响你的体验。
收集有关语言语法、分析库和合适的集成开发环境(IDE)的信息也将有所帮助。您还需要关注诸如部署和扩展模型之类的内容。
可能还需要部署和扩展模型方面的经验。部署是机器学习生命周期中最重要的部分之一,它与扩展一起有助于简化大规模消耗的过程。
有些公司拥有软件工程师团队来处理此类细节,但有些公司则没有。这是为什么最好在面试日期之前解决这些细节。对于那些对编码实践感兴趣的人,可以查看我的文章——“我没有通过该死的编码面试”。
尽管如此,无论特定工作是否需要编码,大多数ML领导者都希望潜在应聘者了解将模型交付给工程师所涉及的内容。能够根据数据量、运行时间和复杂性等因素对模型是否值得生产进行现实评估是非常重要的。
ML中的建模
ML中的术语“模型”是指来自训练过程中的产品或人工制品。
建模是一组数学参数和表达式,它们以给定数据集的不同元素的类和动作的形式,与输入和输出链接在一起。建模的任务是处理数据的回归、分类和增强。
或简单来说,建模需要大量的数学运算。通常不是在学校教授的那类。这既是ML工程师的数学造诣非常重要的原因,也是为何博士学位这样的资格证书可以带来优势的原因。
在机器学习中使用“学习”的人并不是在开玩笑,因为你需要熟悉几种学习类型(甚至是子领域)。尽管我十分乐意在这里谈论它们,但我打算在机器真正发挥作用之前结束这篇文章。
错误的面试和应避免的错误
面试中应该避免的三大错误是什么?
微软需求优化负责人AnirbanSengupta表示,潜在候选人的三大致命错误,就是用复杂术语使面试官加深印象,把重点放在工作量而不是质量上,并且无法描述过去的项目。
还有其他错误——面试者慌慌张张,没有花时间正确地回答问题。恕我直言,如果你不是万事通,也没关系,只要精通某些领域即可。始终注重质量。如果不了解某一事物,请直接承认,并表现学习的热情。
在整个过程中向潜在的雇主证明,只要你想,就可以学习到新知识。在与一些机器学习领导者的对话中,我发现机器学习工程师有一种趋势,表现出他们快速学习新事物的能力,能够显示出学习的高度
此外,不要机械式地回答问题。例如,如果你不确定面试官想要什么,不要回避提出关于自己的问题。对知道或不知道的事物保持乐观态度。面试官想体验的是与你共事一天的感觉。如果在面试中缺乏协作或澄清问题的能力,那么他们自然会假设你在工作时也会避免澄清问题。
面试官通常喜欢判断你的分析能力以及处理问题的方式。他们想评估你的思考过程。这就是为什么面试时应保持诚实和一丝不苟的原因。夸大简历是大禁忌,千万不要这样做。如果你撒谎,很快会被察觉出来。一旦面试官深入探讨你不完全理解的主题,发表自己的想法时便会露馅。
成功候选人表现的共同特征
成功的人总有一些共同点,以下是大多数成功候选人拥有的特质。
具有协作精神。机器学习不是单人游戏。它更像是一项团队运动。当你开启ML工程师职业生涯时,可能会与技术人员和非技术人员一起工作。你应该具有出色的沟通能力和领导才能,从而与团队共事并领导团队。
要有自知之明。能够从错误中吸取经验尤为重要。为犯错而狡辩则不会走得太远。这只是一种告诉全世界你无法接受失败的方式。
最后一点也很重要,保持谦虚,并对自己的工作充满热情,因为这是你将能够积极贡献的方式。送给你Xyonix创始人Deep Dhillon的一句名言:“人才难遇。现在,他们的劳动报酬过高却且未发挥充分作用。”
Facebook、Google和Amazon正在招聘所有顶尖人才。去这些公司的博士毕业生正在努力改善市场营销活动、广告收入和点击率,以便他们可以像在Xyonix一样从事其他项目。我们永远专注于AI。其中一些项目包括:
- 医院单位患者人口普查预测指标
- 基于智能手机和音频的异常心跳检测器
- 体内手术的自动视频注释和分段引擎
- 摇滚明星听众自然语言文本对话解析器和轻生意念检测器
- 用于情绪分析和自动化观点提取的 医学手术文本审查解析器
如果想在大型公司工作,使用大型数据集,这也不错。他们的某些项目不只是营销和销售。
关键是确定你真的对此充满热情吗?机器学习工程师和数据科学家的需求量很大。无论在哪里工作和从事什么都无所谓。你都将获得丰厚的报酬。其区别只在于影响世界的方式以及在日常生活中技术的用途。