AI项目的失败往往跟大麻烦无关,而是由一个个微小细节所决定。面对种种激动人心的可能性,企业在最初启动AI项目时往往信心满满。但具体实施过程中的现实问题很容易熄灭这份热情,导致AI项目被搁置甚至最终失败。而引发失败的常见问题之一,就是组织缺乏对项目长期成本的准确考量。管理层只核算出了项目的初始成本,却没注意到后期的维护与更新开销。
研究企业Cognilytica就对数百个失败的AI项目做出全面分析,意识到很多组织没有意识到AI项目生命周期的连续性。组织通常只会为项目的前几轮迭代分配预算,包括数据准备、清洗、模型训练、数据标记、模型评估和迭代需求等,但却没能为持续实施的迭代工作保持预算供应。另外,组织还必须持续监控模型和数据衰减,根据需求重新训练模型,并考虑未来进一步扩展和迭代。随着时间推移,这必然导致组织对AI项目的投资回报率产生预期偏差甚至失调。
在考量模型的连续迭代成本时,大家到底经历了怎样的思考过程?大多数组织面临的挑战是,他们往往把AI项目视为一次性概念验证或试点应用,并没有考虑预留一部分资金、资源和人力用于模型的持续评估和重新训练。但作为典型的数据驱动项目,AI绝不是一次性投资。人们可能没有意识到,一旦模型被投入生产,他们就需要持续为模型的迭代和开发分配资金、资源和人力。
所以只考虑到模型构建成本的组织,会在项目启动之后遇到各种问题。以AI项目成本和投资回报为例,AI项目所有者需要关注模型的维护成本是多少,以及愿意为后续数据准备和模型迭代再投入多少资源。
而成功AI项目的一大共通之处,就在于其功能不会一次性交付。相反,成功的项目会将AI方案视为持续迭代的循环,并不存在明确的起点和终点。就如同网络安全项目不是一次性项目一样,AI这类数据驱动项目也需要持续运转,确保适应不断变化的现实、不断变化的数据。即使是最初效果极好的模型,也可能随着时间推移而逐渐失效,毕竟数据漂移和模型漂移不可避免。此外,随着组织自身的发展,对AI应用的专业知识和技巧、用例、模型及数据也会持续更新、不断变化。
再有,全球经济和世界格局也在以意想不到的方式震荡波动。于是乎,任何长期规划项目、包括极度复杂的AI项目,都免不了要随之做出调整。过去两年以来,零售商肯定预料不到供应链和劳动力市场出现的冲击,组织也想不到员工会快速转向居家办公。现实世界和用户行为的快速变化必然导致数据发生变化,所以模型也得随之变化。正因为如此,我们才需要对模型开展持续监控和迭代,充分考虑到数据漂移与模型漂移问题。
关于迭代的思考:方法论与ML Ops
当组织计划扩展或增强模型时,也同样需要匹配原有模型迭代机制。例如,如果一家北美企业希望将购买模式预测模型扩展到其他市场,就需要持续迭代模型和数据以适应新的数据需求。
这些因素意味着,组织必须不断为迭代提供额外资金,确保模型能够正确识别数据源及其他关键因素。而获得AI成功的组织也意识到,他们需要遵循经验验证的迭代和敏捷方法,借此顺利完成AI项目扩展。凭借敏捷方法论和以数据为中心的项目管理思路,跨行业数据挖掘流程标准(CRISP-DM)等已经开始增强AI功能,保证迭代项目不至于遗漏掉某些关键步骤。
随着AI市场的不断发展,名为“ML Ops”的新兴机器学习模型运营管理也开始受到追捧。ML Ops专注于模型的开发和使用、机器学习运营及部署的整个生命周期。ML Ops方法及解决方案旨在帮助组织在持续发展的空间当中管理并监控AI模型。ML Ops也可谓站在巨人的肩膀上,充分汲取了DevOps以开发为中心的项目持续迭代/开发思路,以及DataOps对于不断变化的大规模数据集的管理经验。
ML Ops的目标是为组织提供模型漂移、模型治理与版本控制等可见性指引,借此协助AI项目迭代。ML Ops能帮助大家更好地管理这些问题。虽然目前市面上充斥着各种ML Ops工具,但ML Ops与DevOps一样,主要强调的是组织自己做事,而非花钱购买就能无脑解决。Ml Ops最佳实践涵盖模型治理、版本控制、发现、监控、透明度以及模型安全/迭代等一系列环节。ML Ops解决方案还能同时支持同一模型的多个版本,根据特定需求对其进行行为定制。这类解决方案还会跟踪、监控和确定谁有权访问哪些模型,同时严格保障治理及安全管理等原则。
考虑到AI迭代的现实需求,ML Ops已经开始成为整体模型构建与管理环境中的重要组成部分。这些功能未来也有望越来越多地作为整体AI及ML工具集中的一分子,并逐步登陆云解决方案、开源产品及ML机器学习平台等应用场景。
失败是成功之母
ML Ops与AI项目的成功,离不开最佳实践的支持和引导。问题并不会导致AI项目失败,无法准确解决问题才是失败的根源。组织需要将AI项目视为一种迭代且循序渐进的过程,并充分通过AI认知项目管理(CPMAI)方法和不断发展的ML Ops工具探索出适合自己的最佳实践。从大处着眼,从小处着手,持续迭代的理念应当贯穿AI项目的整个生命周期。这些失败案例绝不是故事的终章,而应该成为新的开始。