如何为机器学习管道编排数据-机器学习数据规范化

译者 | 李睿

审校 | 梁策孙淑娟

机器学习工作负载需要高效的基础设施来快速产生结果，而模型训练非常依赖大型数据集。在所有机器学习工作流程中，第一步是将这些数据从存储集中到训练集群，而这也会对模型训练效率产生显著影响。

长期以来，数据和人工智能平台工程师一直在考虑以下问题来管理数据：

数据可访问性：当数据跨越多个来源并且数据被远程存储时，如何使训练数据可访问?
数据管道：如何将数据作为一条管道进行管理，无需等待即可将数据持续输入到训练工作流程中?
性能和GPU利用率：如何同时实现低元数据延迟和高数据吞吐量以保持GPU不会空闲?

本文将讨论一种新的解决方案，它将用来协调端到端机器学习管道中的数据以解决上述问题。本文将概述常见的挑战和陷阱，并推出编排数据这种新技术，以优化机器学习的数据管道。

模型训练中常见数据挑战

端到端机器学习管道是从数据预处理、清理、模型训练再到推理的一系列步骤，其中模型训练是整个工作流程中最关键和最耗费资源的部分。

下图是一个典型的机器学习管道。它从数据收集开始，然后是数据准备，最后是模型训练。在数据收集阶段，数据平台工程师通常需要花费大量时间让数据工程师可以访问数据，数据工程师则需要为数据科学家准备数据以构建和迭代模型。

训练阶段需要处理大量数据，以确保将数据持续提供给生成模型的GPU。你必须对数据予以管理，以支持机器学习及其可执行架构的复杂性。在数据管道中，每个步骤都会面临相应的技术挑战。

(1)数据收集挑战——数据无处不在

机器学习训练需要采用大型数据集，因此从所有相关来源收集数据至关重要。当数据驻留在数据湖、数据仓库和对象存储中时，(无论是在内部部署、在云中还是分布在多个地理位置)将所有数据组合到一个单一的源中不再可行。对于数据孤岛，通过网络进行远程访问不可避免地会导致延迟。因此如何在保持所需性能的同时使数据可访问是一项重大挑战。

(2)数据准备挑战——序列化数据准备

数据准备从采集阶段的数据开始，包括清理、ETL和转换，然后交付数据以训练模型。如果没有对这个阶段全面考虑，那么数据管道是序列化的，且在等待为训练集群准备的数据时会浪费额外的时间。因此，平台工程师必须弄清楚如何创建并行化的数据管道，并实现高效的数据共享和中间结果的高效存储。

(3)模型训练挑战——I/O与GPU未充分利用

模型训练需要处理数百TB的数据，这些数据通常是大量的小文件，例如图像和音频文件等等。训练涉及需要多次epoch的迭代，从而频繁访问数据。通过不断地向GPU提供数据来保持其忙碌是有必要的，同时优化I/O并保持GPU所需的吞吐量也非易事。

传统方法和常见陷阱

在讨论不同的解决方案之前，先设定一个简化的场景，如下图所示。这里使用一个GPU集群在云中训练，该集群具有多个运行TensorFlow作为机器学习框架的节点。预处理数据存储在Amazon S3中。通常，有两种方法可以将此数据传输到训练集群，下文将予以讨论。

方法一：在本地存储中复制数据

在第一种方法中，整个数据集从远程存储复制到每个服务器的本地存储进行训练，如下图所示。因此，数据局部性得到保证，训练作业从本地读取输入，而不是从远程存储中检索。

从数据管道和I/O的角度来看，这种方法提供了最高的I/O吞吐量，因为所有数据都是本地的。除了开始阶段，GPU将保持忙碌，因为训练必须等待数据从对象存储完全复制到训练集群。

但这种方法并不适用于所有情况。

首先，数据集必须适合聚合本地存储。随着输入数据集大小的增长，数据复制过程变得更长且更容易出错，从而浪费更多时间和GPU资源。

其次，将大量数据复制到每台训练机上会对存储系统和网络造成巨大压力。在输入数据经常变化的情况下，数据同步可能非常复杂。

最后，因为要使云存储上的数据与训练数据保持同步，人工复制数据既费时又容易出错。

方法二：直接访问云存储

另一种常见的方法是将训练与远程存储上的目标数据集直接连接起来，如下图所示。这种方法与之前的解决方案一样，数据集的大小不是问题，但也面临着一些新的挑战。

首先，从I/O和管道的角度来看，数据是串行处理的。所有的数据访问操作都必须经过对象存储和训练集群之间的网络，使得I/O成为瓶颈。因此，由于I/O吞吐量受到网络限制，GPU会等待并会浪费时间。

其次，当训练规模较大时，所有训练节点同时从同一个远程存储访问同一个数据集，给存储系统增加了巨大的压力。由于高并发访问，存储可能会变得拥挤，从而导致GPU利用率低。

第三，如果数据集包含大量的小文件，元数据访问请求将占数据请求的很大一部分。因此，直接从对象存储中获取大量文件或目录的元数据成为性能瓶颈，并增加了元数据的操作成本。

数据编排优秀实践

因为没有一劳永逸的方法，所以数据编排最好在以下场景中使用：

需要分布式训练。
有大量的训练数据(10TB或更多)，尤其是在训练数据中有很多小文件和图像的情况下。
GPU资源没有被网络I/O充分占用。
管道使用许多数据源和多个训练/计算框架。
当处理额外的训练请求时，底层存储需要稳定。
多个训练节点或任务使用相同的数据集。

随着机器学习技术的不断发展，框架执行更复杂的任务，管理数据管道的方法也将不断改进。通过将数据编排扩展到数据管道，端到端训练管道的效率和资源利用率都可以得到提高。

原文标题：Orchestrating data for machine learning pipelines，作者：Bin Fan, InfoWorld

如何为机器学习管道编排数据

模型训练中常见数据挑战

(1)数据收集挑战——数据无处不在

(2)数据准备挑战——序列化数据准备

(3)模型训练挑战——I/O与GPU未充分利用

传统方法和常见陷阱

方法一：在本地存储中复制数据

方法二：直接访问云存储

推荐的方法——编排数据

(1)使用抽象统一数据孤岛

(2)在数据本地性方面使用分布式缓存

(3)优化跨管道的数据共享

(4)通过并行化数据预加载、缓存和训练来编排数据管道

如何为机器学习工作负载编排数据

数据编排优秀实践