机器学习项目必备：端到端机器学习项目开发过程的任务表-端到端技术

本文转载自公众号“读芯术”(ID：AI_Discovery)。

在创建具有重大意义的项目时，我会记录所有在其他人身上学到的以及自己在工作中领悟到的东西。这对我来说是必须的，因为需要处理一个项目中的许多内容(争论、准备、问题、模型、微调等等)，这容易让人忘记一些事情。

任务列表能指导开发人员完成下一步，促使你检查每个任务是否已成功执行。有时候，我们很难找到出发点，任务表也可帮助开发人员从正确的来源中获取正确的信息(数据)，以便建立关系并揭示相关的见解。

最好的做法是让项目的每一部分都经过检查。正如阿图·葛文德在其《清单革命》(The Checklist Manifesto)中所说：“我们所知事物的数量和其复杂性已经超过了我们能正确、安全、可靠地传达其优点的能力范畴。”

所以，看看这个简洁明了的项目任务表，它将帮你减少工作量，提高产出!

机器学习项目清单

在几乎每个机器学习项目中都必须执行8-10个步骤，其中一些步骤可以按顺序交替执行。

1. 从高层次的角度定义问题

为了理解和阐明问题的业务逻辑，任务表应该告知：

2. 识别数据源并获取数据

在大多数情况下，如果拥有数据，并且希望定义相关问题以更好地利用传入的数据，可以在第一步之前执行此步骤。

基于问题的定义，我们需要确定数据的来源，可以是数据库、数据存储库、传感器等。对于要在生产中部署的应用程序，需通过开发数据管道来自动执行此步骤，以保持传入数据流入系统。

[[336009]]

图源：unsplash

3. 数据的初步探索

在这一步骤中会发现所有对研究结果、预测以及目标有影响的数据特征。如果你有一个巨大的数据块，在该步骤中对其进行抽样，使分析更易于管理。应遵循以下步骤：

4. 探索性数据分析，以准备数据

是时候通过定义用于数据转换、清理、特征选择/设计和缩放的函数来执行前一步的发现了。

图源：unsplash

5. 开发一个基准模型并探索其他模型以筛选最佳模型

创建一个非常基础的模型，作为所有其他复杂机器学习模型的基线。按照以下步骤：

6. 微调入围模型，检查集成方法

这是关键步骤之一，在此步骤中将更接近最终解决方案。主要步骤应包括：

7. 记录代码并传达解决方案

沟通的过程是多方面的，请时刻牢记所有现有的和潜在的利益相关者。主要步骤包括：

8. 在生产中部署模型和监视器

如果项目需要在实时数据上测试部署，应该创建一个web应用程序或REST API，以便在所有平台(web、android、iOS)上使用。主要步骤(因项目而异)包括：

图源：unsplash

不要照本宣科，你的检查表可以根据项目的复杂性进行调整。以此为基础，一个完美的机器学习项目正向你招手。