组织为什么要在机器学习治理上挣扎?当我们要为组织解决机器学习治理时,我们看到客户面临五个主要挑战。
机器学习模型治理是组织如何控制访问、实现策略和跟踪模型活动的整个过程。这是降低模型失效、法规遵从性和攻击风险的必要条件。治理是将组织的底线和品牌风险最小化的基础。具有有效机器学习治理的组织不仅具有对模型在生产中的运行方式的细粒度控制和可见性,而且通过将AI/ML治理策略与IT策略的其余部分集成,它们可以释放运营效率。
通过治理,组织可以了解可能影响模型结果的所有变量,从而帮助他们快速识别和缓解可能降低结果准确性和应用程序性能的问题(例如模型漂移)。这些问题会随着时间的推移,直接影响企业的底线,并随着时间的流逝削弱客户对品牌的信任。
在一份有关机器学习治理的白皮书中有提到管理人工智能治理的7步框架。
首先我们要知道,组织为什么要加大力度进行机器学习治理?
机器学习治理是各组织在2021年面临的最大挑战,因为它们正竞相扩大机器学习能力,以在快速发展的数字化市场中保持竞争力。(资料来源:2021年企业机器学习趋势报告)
当我们的客户需要为他们的组织解决机器学习治理时,我们看到了五个主要的挑战。
- 不清楚什么是最佳实践:我们仍处于机器学习治理的初期,组织缺乏明确的路线图或规范性建议,无法在自己特定的环境中进行有效实施。
- 相关法规不够完善:不断变化和模糊的监管环境导致了不确定性,公司需要投入大量资源来维持合规。那些不能跟上的公司可能会失去竞争优势。
- 现有的解决方案都是手动的且不完整:即使是今天正在实施治理的组织,也是使用各种各样不同的工具和手动流程拼凑而成。这样的解决方案不仅需要持续的维护,而且它们还存在覆盖范围的关键缺口。
- 机器学习不容易集成到现有的IT策略中:有效的机器学习治理需要与IT协作,但大多数组织仍然将机器学习视为精品计划——这使得它难以集成到更标准化的企业IT流程和技术堆栈中。
- 管理不善的机器学习给公司资产带来风险:实施机器学习的公司面临着品牌和利润的风险。这些存在偏差或不被理解的模型可能会侵蚀客户对品牌的信任,而不被监控的模型可能会在生产中失败。
组织应采取哪些措施来改善机器学习治理?
组织应该实施一个可以解决上述机器学习治理挑战的MLOps平台。否则组织就不得不拼凑起来并维护他们自己的解决方案。无论哪种方式,你都要确保能够支持以下7个关键层面:
- 完整的模型目录,包括模型风险文档,用于训练和预测模型数据源的描述以及模型输出的目标和使用。
- 基于风险梯度的灵活模型风险管理框架:高风险模型得到更多的验证、测试和监控,而低风险模型得到更轻松的接触,将更多的责任委派给业务单元或模型开发人员;
- 拥有一个有效的过程,用于将模型部署并集成到旧系统和数据体系结构中
- IT可以使用工具来操作,管理和监视生产中模型的运行状况,从而使模型开发人员脱离模型操作
- 监控模型准确性和数据一致性的工具,如果模型结果或输入数据有所偏差或输入数据质量下降,这些工具将生成警报;
- 集成的模型和数据更改管理流程,以便对数据或模型的变更进行适当的测试和沟通,以防止意外情况的发生;
- 标准的审计报告和日志,以便审查人员和审核员可以审查模型结果、变更历史、数据错误或过去的模型失败和采取措施的记录。