机器学习是人工智能(AI)的一个分支,而数据科学是数据清理、准备和分析的学科。人们需要了解每种技术的工作原理,以及它们是如何一起工作的。
机器学习(ML)和数据科学经常被同时提及,这有着充分理由。这两种技术相辅相成,但是了解它们如何工作以及如何协同工作很重要。
机器学习是人工智能(AI)的一个分支,它使计算机能够通过数据进行自我学习,并且无需人工干预即可应用这种学习。
业务转型和外包咨询服务商Pace Harmon公司的主管JP Baritugo说,“从本质上讲,数据科学是一种实践领域,而机器学习是一组工具和方法论。数据科学使用广泛的专业知识、业务知识、工具和方法来处理大数据,以产生有意义的见解,从而推动行动并实现有意义的业务成果。”
为什么机器学习需要数据科学
有效的机器学习需要良好的数据科学。Baritugo说:“企业需要数据科学家的专业知识来确保正确使用和部署机器学习。”数据科学家可以确保为模型提供经过清理和规范化的数据集以进行训练,并确保根据数据集和要解决的业务问题使用正确的算法。
数据科学平台RapidMiner公司创始人兼总裁Ingo Mierswa说,“数据科学可以在机器学习领域之外应用。数据科学是人工智能、机器学习和深度学习,以及数据准备在商业环境中的实际应用。数据科学的目标是从数据中获取见解,预测未来发展并提出行动(有时甚至自动执行这些行动),这是通过人工智能和机器学习之类的工具来实现的。”
从根本上说,数据科学家从多个来源收集并准备数据集,然后应用某种功能从中提取见解。在某些情况下,他们可能会涉足机器学习。在其他情况下,可能需要进行更基本的分析。 ISG公司自动化和创新总监Wayne Butterfield说,“至少在我看来,数据科学只是对数据的操纵。”
何时使用机器学习
当面对解决方案隐藏在大量数据中的情况时,机器学习将成为得力的工具。Mierswa说:“机器学习擅长处理该数据,只需花费工作人员一小部分的时间就可以从中提取模式,并获得其他方面无法获得的见解。”
例如,机器学习(由数据科学提供信息)为金融服务中的风险分析、欺诈检测和资产组合管理、基于GPS的旅行预测,以及针对亚马逊和Netflix的产品和内容的推荐提供支持。
Butterfield说,“机器学习适合于已经存在大量标注良好的历史数据或者可以非常快速地模拟数据的问题。如果企业没有足够的数据可以进行训练,那么使用机器学习就会花费很多时间。”
密歇根理工大学计算机学院的计算机系统副教授、计算机与网络系统研究所所长Timothy Havens说,“机器学习模型只与他们学习的数据质量一样好,而现在存在许多类型的问题,其中存在大量数据。”
Butterfield解释说,“某些问题非常适合机器学习。例如,数据科学(不包括机器学习)多年来已被应用到预测和计划中,但准确性有限。由于现在企业可以构建可以考虑多个数据源的复杂算法,例如天气、历史疾病模式、外部事件、过去的需求,因此企业可以获得更加准确的预测,而且不仅仅是每天一次,也可能是每小时一次。”
在金融服务中,机器学习和数据科学可以为保险和防止欺诈提供强大的解决方案。在IT应用中,可以改善网络管理。医疗保健组织可以应用机器学习和数据科学来提高诊断准确性,确定最佳价格和数量组合或预测患者结果。在客户体验管理中,他们一起改善客户互动,预测客户生命周期价值,并估计客户流失。零售商可以利用它们来预测需求。优化定价并细分客户。在制造业中,数据科学和机器学习可用于使供应链自动化并改善计划。
当数据科学足够的时候
围绕着人工智能的技术应用,每个业务问题都开始看起来像是一个向它投入一些机器学习的机会。但是在许多情况下,机器学习可能无法正常工作,或可能会造成更大的破坏。
Everest Group副总裁Anil Vijayan说,“有时采用数据科学就足够了。由于界限模糊,很难将数据科学和机器学习明确区分。最终,大多数算法都使用统计技术。并不是每个问题都需要人工智能来解决。在许多情况下,使用传统数据科学可能不仅足够,而且效率更高。”
Vijayan说,传统的数据科学技术(不需要采用机器学习)在输出依赖于相对较少的参数的情况下可能更有效,而且这些参数不会随时间发生太大的变化。此外,当输出和参数之间的关系被很好地理解并且不太可能改变时,只采用数据科学就足够了。