当企业最初开始部署 AI 和启动机器学习项目时,其重点往往是理论层面。是否存在某一可以提供必要结果的模型?如何构建该模型?如何训练这一模型?
但数据科学家用来开发这些概念验证的工具通常不能很好地转化为生产系统。因此,根据IDC公司的数据,部署一个 AI 或机器学习解决方案平均需要 9 个多月的时间。
IDC司分析师史利南·苏布兰马尼安 (Sriram Subramanian) 说:“我们称之为‘模型速度’,即一个模型从开始到结束所需的时间。”
这就是 MLOps 可发挥作用之处。MLOps(机器学习运营)是一系列最佳实践、框架和工具,可帮助企业管理数据、模型、部署、监控工作以及采用某一理论概念验证 AI 系统并投入使用的其他方面工作。
“MLOps 可将模型速度缩短到几周时间——有时是几天,”苏布兰马尼安说。 “就像使用开发运营 (DevOps) 可缩短开发应用程序的平均时间一样,因此你需要使用 MLOps。”
他表示,通过使用 MLOps,企业可以构建更多的模型、更快地进行创新,并处理更多的用例。“其价值主张非常明确。”他说。
IDC公司预测,到 2024 年,60% 的企业将使用 MLOps 来实现其机器学习工作流。苏布兰马尼安表示,就企业在使用 AI 和机器学习技术时所面临的难题,而对其进行调查时,缺乏 MLOps 已成为企业接纳 AI 和机器学习技术的主要障碍,仅次于成本。
在此,我们将研究什么是 MLOPs,它是如何演变的,以及哪些组织机构需要使用和牢记,以为实施 AI 技术而充分利用这一新兴方法。
MLOps 的演变
几年前,当欧亨尼奥·祖卡雷利 (Eugenio Zuccarelli) 首次开始设计机器学习项目时,MLOps 只是一系列最佳实践。从那时起,祖卡雷利已在多家公司从事 AI 项目,包括医疗和金融服务领域的一些公司,随着时间的推移,他经历了 MLOps 逐步发展,并包含了多种工具和平台。
如今,MLOps 可为实现AI 技术提供一个相当强大的框架,祖卡雷利表示,他现在担任西维斯健康公司 (CVS Health) 的创新数据科学家。举例来说,祖卡雷利提到了他之前从事的一个项目,该项目是为开发一款可预测不良后果(例如再次住院或疾病恶化)的应用程序。
“我们当时在研究数据集和模型,并与医生交谈以找出最佳模型的特征,”他说。“但要使这些模型真正有用,我们需要将这些模型放到实际用户面前。”
这意味着要开发一款可靠、快速和稳定的移动应用程序,并在后端有一个通过 API 连接的机器学习系统。“如果没有 MLOps,我们将无法保证做到这一点。”他说。
他的团队使用 H2O MLOps 平台和其他工具为该模型创建了一个健康仪表板。“你不希望该模型发生重大变化,”他说。“而且你不想引入偏见。该健康仪表板可让我们了解系统是否发生了变化。”
使用 MLOps 平台还可以让我们对生产系统进行更新。“在不停止该应用程序运行的情况下替换某一文件是非常困难的,”祖卡雷利说。“即使系统正在生产过程中,MLOps 工具也可以对该系统进行更换,而且对该系统本身的干扰极小。”
他表示,随着 MLOps 平台的成熟,这些平台会加快整个模型开发的过程,因为企业不必为每个项目都白费力气做一些重复性工作。数据管道管理功能对于实施 AI 也至关重要。
“如果我们有多个需要相互通信的数据源,那么 MLOps 就可以发挥作用,”他说。“你希望流入机器学习模型的所有数据都是一致且高质量的。就像他们说的那样,无用数据输入,无用数据输出。如果模型所获取的信息质量很差,那么其预测结果本身就会很差。”
MLOps 的基本原理:移动目标
但不要仅仅因为现在可使用一些平台和工具,就认为可以忽略 MLOps 的核心原则。刚开始涉足这一领域的企业应该记住,MLOps 的核心是在数据科学和数据工程之间建立强有力的联系。
“为了确保 MLOps 项目能够成功,你需要在同一团队中同时配备数据工程师和数据科学家。”祖卡雷利说。
此外,还要配备一些必要的工具以防止产生偏见、保证透明度、提供可解释性和支持职业道德平台——这些工具仍在开发中,他表示。“这肯定还需要大量的工作,因为这是一个很新的领域。”
因此,如果没有一个完整的交钥匙解决方案可供使用,则企业必须精通所有方面,才能在实施 AI 技术时使 MLOps 变得如此高效。这意味着在各项工作中学习专业知识,位于美国坦佩的 Insight 技术咨询公司的 AI 团队的国内业务经理梅根·金特里 (Meagan Gentry) 说。
MLOps 涵盖了从数据收集、验证和分析到管理机器资源和跟踪模型性能的所有方面。可为企业提供帮助的一些工具可以部署在本地、云端或边缘。这些工具可以是开源的或私有的。
但掌握技术方面的知识只是解决问题的一部分。MLOps 还借鉴了开发运营 (DevOps) 中的敏捷方法以及迭代开发原则,金特里说。此外,与敏捷开发相关的领域一样,沟通是至关重要的。
“每个角色之间的沟通都至关重要,”她说。“数据科学家和数据工程师之间的沟通。与开发运营人员的沟通,以及与更大的 IT 团队之间的沟通。”
对于刚起步的公司而言,MLOps 可能会让你感到困惑。可以看到一些一般性原则,有数十家供应商,甚至有更多的开源工具箱。
“这就会存在一些陷阱,”凯捷美洲公司 (Capgemini Americas) 企业架构高级经理海伦•里斯托夫 (Helen Ristov) 说。“其中很多陷阱都在开发过程中。没有一套正式的指南,就像你在开发运营 (DevOps) 中看到的那样。这是一项新兴技术,一些指南和策略需要一定时间才能发展出来。”
里斯托夫建议企业从他们的数据平台开启自己的 MLOps 行程。“也许他们拥有多个数据集,但这些数据集位于不同的地方,并且没有一个很紧密相连的环境。”她说。
她表示,企业无需将所有数据转移到一个平台上,但确实需要一种方法将来自不同数据源的数据引入,这可能会因应用情况不同而存在差异。例如,对于那些需要低成本存储且频繁进行大量分析的公司,则非常适合使用数据湖。
她表示,MLOps 平台通常会提供一些工具来构建和管理数据管道,同时记录不同版本的训练数据,但这并不是一劳永逸的。
然后还提供模型创建、版本管理、日志记录、衡量特征集,以及管理模型本身的其他方面。
“这涉及到大量的编码工作,”里斯托夫说,并补充道,建立一个 MLOps 平台可能需要几个月的时间,而且当涉及到集成方面的工作时,平台供应商仍有很多工作要做。
“在不同方向有很大的发展,”她说。“有很多工具正在开发中,这一生态系统非常大,人们只是在选择他们需要的东西。MLOps 正处于不成熟阶段。大多数组织机构仍在寻找最佳配置。”
了解 MLOps 的格局
IDC公司的苏布兰马尼安表示,到 2025 年,MLOps 市场规模预计将从 2020 年的约 1.85 亿美元增长到约 7 亿美元。但他表示,这可能是一种严重的低估,因为 MLOps 产品通常与更大的平台捆绑在一起。他表示,到 2025 年,这一市场的真实规模可能超过 20 亿美元。
苏布兰马尼安表示,MLOps 供应商通常分为三类,首先是大型云提供商,包括 亚马逊网络服务 (AWS)、Azure 云和谷歌云,这些云平台将 MLOps 功能作为一项服务来提供。
然后是一些机器学习平台供应商,如 DataRobot、Dataiku、Iguazio 等。
“第三类是他们过去所说的数据管理供应商,”他说。“如 Cloudera、SAS 和 DataBricks 等公司。他们的优势在于数据管理能力和数据操作,然后他们扩展到具备机器学习能力,并最终扩展到具备 MLOps 能力。”
苏布兰马尼安表示,这三个领域都在呈现爆炸式增长,并补充道,让 MLOps 供应商脱颖而出的关键在于他们是否能够同时支持在本地和云端部署模型、他们是否能够实施可信赖和负责任的 AI、他们是否能提供即插即用的方案,以及他们的方案是否可以轻松进行扩展。“这就是不同供应商之间的差异所在。”他说。
根据IDC公司最近的一项调查,缺乏实施负责任 AI 的方法是使用 AI 和机器学习技术的三大障碍之一,与缺乏 MLOps 本身并列第二位。
Gartner咨询公司AI 和机器学习技术研究分析师苏米特•阿加瓦尔 (Sumit Agarwal) 表示,这在很大程度上是因为除了使用 MLOps 之外,没有其他选择。
“其他方法都是手动方式,”他说。“所以,的确没有其他选择。如果你想扩大规模,你就需要自动化。你需要自己的代码、数据和模型具有可追溯性。”
根据Gartner咨询公司最近的一项调查,一个模型从概念验证到投入使用所需的平均时间已从 9 个月降至 7.3 个月。“但 7.3 个月仍是一个很长的周期,”阿加瓦尔说。“组织机构有很多机会可以利用 MLOps。”
将组织文化转向 MLOps
简柏特公司 (Genpact) 全球分析业务负责人阿马雷什•特里帕蒂 (Amaresh Tripathy) 表示,MLOps 还要求企业的 AI 团队进行组织文化方面的转变。
“数据科学家给人们的一个普遍形象是一个疯狂的科学家,努力在做一个大海捞针的事情,”他说。“数据科学家是一个发现者和探索者,而不是一个生产小部件的工厂车间。但这就是你真正要扩大规模时所需要做的事情。”
他表示,企业往往会低估自己所需要付出的努力。
“人们对软件工程有更好的认识,”他说。“关于用户体验和要求有很多规则。但不知何故,人们并不认为当自己部署一个模型时,必须经历同样的过程。人们还有一种错误的观念是,所有擅长在测试环境中工作的数据科学家都会很自然地去部署并能够部署某一模型,或者他们可以派几个 IT 同事就能够完成这一工作。人们对自己所需要做的工作缺乏理解。”
企业还没有认识到,MLOps 可能会对公司的其他部门产生连锁反应,而且通常会导致发生巨大的变化。
“你可以将 MLOps 部署在客服中心,但平均响应时间实际上会增加,这是因为一些简单的工作由机器、AI 负责处理,而交给人工处理的工作实际上需要更长的时间,因为这些工作更为复杂。”他说。“因此,你需要重新考虑将要做的工作是什么,你需要什么样的人,以及应该具备什么样的技能。”
他表示,如今,一个组织中只有不到 5% 的决策是由算法驱动的,但这种情况正在迅速改变。“我们预计,在未来五年内,将有 20% 到 25% 的决策由算法驱动。我们研究的每一个统计数据都表明,我们正处于 AI 快速扩张的拐点。”
他表示,MLOps 是一个关键要素。
“百分之一百,”他说。“如果没有 MLOps,你将无法持续地使用 AI。MLOps 是企业中扩大使用 AI 的催化剂。”