数据科学、机器学习与AI：如何协同工作-51CTO.COM

现在企业都拥有海量数据。就在十年前，千兆字节的数据似乎还很庞大。而如今，有些大型企业已经在管理泽字节数据。为了让你了解这种数据规模，我们打个比方，如果你的笔记本电脑或台式机装有1 TB硬盘驱动器，则泽字节相当于10亿个这样的硬盘驱动器。

企业如何从如此多的数据中挖掘商业价值呢?他们需要能够分析这些数据，这就像在大海捞针。而这正是数据科学、机器学习和AI发挥作用的地方，但你并不需要泽字节规模的数据来使这三项技术具有相关性。

对于各种行业中各种类型和规模的企业，这三项技术都是关键技术主题。但是，对于数据科学、机器学习、人工智能以及它们各自涉及的内容，人们仍然经常感到困惑。你需要了解这些变革性概念的性质和目的，以帮助你学习如何最好地利用它们以满足紧迫的业务需求。

下面让我们看看这些技术，了解它们之间的差异以及如何让它们协同工作。

数据科学

虽然从数据出现以来，数据就是计算的核心，但在数据出现的几十年后，才出现专门处理数据分析的单独领域。数据科学专注于统计方法、科学方法和高级分析技术–而不是数据管理的技术方面，这些技术将数据视为离散资源，而不管其存储或操作方式如何。

在其核心，数据科学旨在从数据中提取有用的见解，基于企业高管和其他潜在用户的特定要求。客户想要购买什么?企业的特定产品或在某个地理区域的情况如何?COVID-19疫情是否正在缩减或增加资源?这些是可以通过数据科学回答的问题，其中利用数学、统计和数据分析。

传统上来看，企业依靠商业智能系统从不断增长的数据池中获得见解。但是，BI系统部分依靠人类来发现电子表格、仪表板、图表或图形中的趋势。他们也受到大数据4个属性的挑战：数量、速度、多样性和准确性。随着企业存储越来越多的数据，以更快的速度从各种各样的数据源中收集数据，以不同的格式和不同的数据质量级别，BI的常规数据仓库和业务分析方法已经不够用。

相比之下，亚马逊、谷歌、Netflix和Spotify等领先公司的经验表明，应用数据科学的基本方面可以帮助发现更深刻的见解，从而提供比商业竞争对手更大的竞争优势。他们和其他组织(银行和保险公司、零售商、制造商等)都在利用数据科学来发现数据集的模式、识别潜在的异常交易、发现错失客户的机会，并创建未来行为和事件的预测模型。

同样，医疗保健提供者依靠数据科学来帮助诊断医疗状况，并改善患者护理，而政府机构则将其用于提早通知可能危及生命的情况，以及确保关键系统和基础设施的安全性等。

数据科学工作主要由数据科学家完成。尽管对其工作描述尚未达成共识，但下面是有效的数据科学家必须具备的最低技能：

完全掌握统计数据和概率;
了解用于分析数据的各种算法方法;
懂得使用各种工具、技术来探究大型数据集以获得所需分析结果;
数据可视化功能，可提供对所生成见解的可视性。

作为数据科学团队的一部分，数据科学家经常与数据工程师合作，以从多个源系统中收集和整理数据;数据科学家还需要与业务分析师合作，以了解不断发展的业务需求，以及数据分析师，以了解不断变化的数据集特性，还有开发人员–他们可以帮助将由数据科学应用程序生成的分析模型投入生产环境。

现在企业越来越多地要求这些模型做更多的事情，而不仅仅是提供对当前数据状态的见解的快照。数据科学家可以训练算法来学习样本数据的模式、相关性和其他特征，然后分析他们从未见过的完整数据集。通过这种方式，数据科学推动人工智能的发展，特别是通过使用机器学习来支持AI的目标。

机器学习

智能的标志之一是从经验中学习的能力。如果机器可以识别数据中的模式，则它们可以使用这些模式来对新数据生成见解或预测。这是机器学习背后的基本概念。

机器学习依赖于算法，这些算法可以将从良好数据示例中学习编码为模型。这些模型可用于广泛的应用程序，例如将数据分类(“此图像是猫吗?”)，根据给定的先前识别模式预测某些数据的值(“此交易是欺诈的概率是多少? ?”)，以及标识数据集中的组(“我还可以向购买该产品的人推荐其他哪些产品?”)。

机器学习的核心概念体现在分类、回归和聚类中。现在已经创建各种各样的机器学习算法，可跨不同的数据集执行任务。可用的算法包括决策树、支持向量机、K均值聚类、K最近邻、朴素贝叶斯分类器、随机森林、高斯混合模型、线性回归、逻辑回归、主成分分析等。数据科学家通常会构建和运行算法;现在，有些数据科学团队还包括机器学习工程师，他们可以帮助编码和部署结果模型。

机器学习过程涉及不同类型的学习，其中数据科学家和分析师的指导水平各不相同。主要的替代方法是：

有监督学习，从人为标记的培训数据开始，帮助指导算法学习什么;
无监督学习，在这种方法中，算法使用未标记的训练数据自行发现信息;
强化学习，它使算法可以通过反复试验来学习初始指令，并受到数据科学家的持续监督。

现在没有哪种算法方法能像人工神经网络那样让人感到兴奋和充满希望。就像生物系统一样，神经网络包含神经元，这些神经元可以获取输入数据，对输入施加权重和偏差调整，然后将结果输出馈送到其他神经元。通过这些神经元之间一系列复杂的互连和相互作用，随着时间的推移，神经网络可以学习如何调整权重和偏差，以提供所需结果。

在1950年代还是感知器算法中的单层神经元，现在已经发展成为一种更为复杂的方法，称为深度学习，该方法使用多层来产生细微而复杂的结果。这些多层神经网络已经显示出强大功能，可从大型数据集中学习并支持面部识别、多语言对话系统、自动驾驶汽车和高级预测分析等。

在数据密集型公司(例如Google、Netflix、亚马逊、微软和IBM)的大力推动下，曾经看起来像是一种假设的研究迅速成为可能现实，并在2000年代初开始发展。大数据的可用性、数据科学的能力和机器学习的力量，不仅为面临挑战的当今企业提供了答案，而且还可以帮助克服长期挑战，使AI照进现实。

人工智能

人工智能是比计算本身更古老的想法：是否有可能创造出具有人类认知能力的机器?人工智能的想法最早出现在在20世纪中叶，长期以来，这个想法激励着学者、研究人员和科幻小说作家。在1950年，计算机先驱和著名的代码破解者Alan Turing提出机器智能的基本测试，该测试被称为图灵测试。人工智能一词是在1956年在达特茅斯举行的AI会议上提出。

AI仍然是一个梦想，几十年前很多人所设想人工智能仍然没有实现。具有完全认知和智力能力的机器的概念被称为人工智能(AGI)或通用AI。目前还没有人建立这样的系统，如果可行的话，AGI的开发可能还需要数十年的时间。

但是，我们已经能够解决弱AI任务。我的研究公司Cognilytica已经定义七种AI模式，这些模式专注于感知、预测或规划的特定需求。

例如，它们包括训练机器：

准确识别图像、对象和非结构化数据中的其他元素;
与人类进行有意义的对话互动; 使用生成的见解来推动预测分析系统;
发现大数据集中的模式和异常; 为超个性化用途创建个人的详细配置文件;
支持自治系统–在很少人或没有人参与的情况下;
解决情景模拟和其他具有挑战的目标驱动型问题。

这些用例都提供重要功能和价值，尽管没有解决AGI的总体目标。机器学习的发展直接带来这些弱AI应用程序的发展。而且由于数据科学使机器学习变得切实可行，因此它也使机器学习成为现实。

数据科学、机器学习和AI之间的差异

尽管数据科学、机器学习和AI很相似，并可在分析应用程序和其他用例中互相支持，但它们的概念、目标和方法却有很大不同。为了进一步区分它们，请考虑下列关键属性。

数据科学：

专注于从海量数据中提取有效信息，以帮助决策和计划;
通过描述性、预测性和规范性分析应用程序，适用于广泛的业务问题;
可处理小规模数据到非常大的数据集;
使用统计、数学、数据整理、大数据分析、机器学习和其他各种方法来回答分析问题。

机器学习：

专注于为算法和系统提供方法，以从数据经验中学习并利用该经验随着时间的推移而改进;
通过检查数据集而不是显式编程来学习，利用数据科学方法、技术和工具;
可以通过有监督、无监督或强化学习方法来完成;
支持人工智能用例，尤其是处理特定任务的弱AI应用程序。

人工智能：

专注于赋予机器类似于人类的认知和智力能力;
包含智能概念的集合，包括感知、规划和预测元素;
能够在特定任务和工作流程中增强或代替人类;
当前还没有解决人类智能的关键方面，例如常识理解、将知识从一种环境应用到另一种环境、适应变化并展示感知力和意识。

数据科学、机器学习和AI如何结合

数据科学本身的力量很巨大，当与机器学习相结合，可提供更大的潜在价值，从不断增长的数据池中获得洞察力。当这二者结合使用时，还可以驱动各种弱AI应用程序，并最终可能解决通用AI的挑战。

更具体地说，下面是企业如何结合数据科学、机器学习和AI以产生有效效果的示例：

预测性分析应用程序，可基于对不断变化数据集的分析，预测客户行为、业务趋势和事件;
AI会话系统，可与客户、用户、患者和其他个人进行高度交互的通信;
由机器学习和AI驱动的异常检测系统，可响应不断发展的威胁并增强自适应网络安全和欺诈检测系统;
超个性化系统，可实现有针对性的广告、产品推荐、财务指导和医疗保健，以及其他针对客户的个性化产品。

数据科学、机器学习和AI是独立的概念，它们各自提供强大的功能，而这三者相结合正在改变我们管理企业和业务运营的方式-以及我们如何生活、工作以及与周围世界交互。