译者 | 李睿
审校 | 重楼
MLflow是一个开源平台,专门用于处理机器学习过程的整个生命周期。本文介绍的综合指南将从初学者开始,逐步提升至高级专家的水平,将涵盖使用Python代码时的所有重要功能。通过这个综合指南,将全面了解MLflow,并能够管理实验、打包代码、管理模型以及部署模型。
MLflow简介
设置MLflow
从“MLflow跟踪”到“查询实验”
MLflow是涵盖机器学习过程生命周期的重要工具;该范围由实验、可再现性和部署组成。以下是MLflow主要组件的概述:
- MLflow跟踪:用于记录和查询实验。
- MLflow项目:打包机器学习代码,使其可重用和可复制。
- MLflow模型:部署和管理模型。
- MLflow模型注册表:专为管理模型而定制的存储库。
安装
以下的代码用于使用pip安装MLflow:
Shell:
设置跟踪服务器
以下代码设置了一个MLflow跟踪服务器,其中包含用于后端存储的SQLite,以及用于项目的目录./mlflow.db和./artifacts。
Shell:
MLflow可以用于记录和查询实验。日志记录需要运行一个程序,并且要查询实验,运行以下代码行:
Python:
示例用例
端到端项目
Python:
MLflow项目
MLflow项目是组织和打包代码的一种方式。项目只是一个带有MLproject文件的目录。
(1)创建MLproject文件
以下是一个MLproject文件的例子:
Python:
(2)运行项目
要运行一个项目,使用mlflow run命令:
Shell:
MLflow模型
MLflow模型是打包机器学习模型的标准方法。其想法是,使用MLflow以许多不同的格式保存模型,例如Python、R甚至Java。
(1)保存模型
以下是在Python中保存模型的方法:
Python:
(2)加载模型
以下是是加载已经保存模型的方法:
Python:
MLflow模型注册表
MLflow模型注册表是管理模型的中心存储库。
(1)注册模型
为了注册一个模型,你需要先记录它,然后才能注册:
Python:
(2)管理模型版本
然后,可以通过在不同阶段(例如Staging和Production)之间进行转换来管理模型的不同版本:
Python:
高级功能和集成
(1)与GenAI集成
MLflow可以很好地支持GenAI模型,包括OpenAI、Transformer和LangChain。以下是如何记录和部署OpenAI模型的示例:
Python:
(2)提示工程界面
MLflow的提示工程用户界面(UI)允许交互式地开发和评估提示。
(3)部署
使用MLflow很容易部署模型。例如,可以使用MLflow的REST API来服务一个模型:
Shell:
MLflow的示例用例
用例1:超参数调优的实验跟踪
当为机器学习模型调优超参数时,跟踪每个实验的参数和结果以了解最佳模型配置是很重要的。如果第一次使用MLflow,那么在进一步讨论这个用例之前,下面的步骤将指导人们安装MLflow库。
假设有一个随机森林分类器,有一些超参数需要调优:
Python:
YAML:
步骤1:创建Conda环境
创建名为conda.yaml的文件,并添加如下内容:
YAML:
然后执行如下命令创建conda环境。
YAML:
步骤2:执行培训脚本
创建一个名为train.py的文件,并添加以下脚本来实现训练逻辑:
Python:
在这个脚本中,采用不同的超参数训练多个随机森林分类器并记录结果。将load_data()函数替换为加载和预处理实际葡萄酒质量数据的代码。
YAML:
已经创建了train.py脚本来训练和记录示例模型的结果。现在,将创建以下文件来执行MLflow运行:
- conda.yaml文件指定conda环境。
- train.py文件指定入口点。
- 修改现有的load_data.py和winequality_dataset.py文件,以纠正路径规范中的错误。
步骤3:定义Conda环境
创建conda.yaml指定环境依赖项:
YAML:
步骤4:编写训练脚本
创建train.py脚本来训练模型并记录结果:
Python
步骤5:运行项目
使用mlflow Run命令运行项目:
Shell:
步骤6:注册和部署模型
运行项目后,可以注册模型并部署:
Python:
用以下的命令创建模型的服务版本:
Shell:
步骤7:做出预测
可以通过发送HTTP请求来进行预测。以下是如何使用请求库实现这一目的:
Python:
结论
在这份指南中,通过一系列示例和一个综合项目演示了MLflow的应用。在掌握了所有必要的信息之后,通过提高机器学习项目管理过程的效率和功能来最大限度地提高MLflow的效率。可以将提供的项目作为未来项目和想法的基础。需要注意的是,这里提供的信息是官方文档的简明版本。有关更全面的信息,可以参阅MLflow官方指南,该指南概述了Python中的关键概念和有用的示例。
原文标题:A Comprehensive Guide to MLflow for Machine Learning Lifecycle Management,作者:Harsh Daiya
链接:https://dzone.com/articles/from-novice-to-advanced-in-mlflow-a-comprehensive。