大咖专栏｜拨云见月，专注于深度学习本身-51CTO.COM

作为人工智能大爆炸的核心驱动，深度学习给机器学习领域带来了***的巨大影响。面对火山喷发般的数据洪流，人们期望从深度学习中获得处理现实问题的助力。

然而前期准备却要占据大量时间精力，往往与简便解决复杂问题的目的背道而驰，本文从深度学习的统一支持框架入手，一步步帮助我们从繁杂的前期工作中夺回对深度学习本身的专注。

摘要

分布式深度学习应用往往需要用户在运行环境的多节点部署和可扩展性上投入大量时间与精力，而基于数据中心集群资源的深度学习工作负载的统一支持框架，主要目的是实现深度学习工作负载在数据中心资源池上的自动化部署与执行，从而帮助用户将更多注意力集中在商业逻辑和深度学习问题本身。

[[269695]]

作者简介

[[269696]]

李三平

李三平，戴尔易安信中国研究院***科学家。毕业于美国麻省大学，计算机工程专业博士。目前主要围绕数据中心基础架构从事机器学习、深度学习相关的研发工作，包括基于集群资源的深度学习工作负载支撑框架，以支持深度学习模型自动化调参与工作负载的分布式部署；构建自动化机器学习工作流以提高数据中心基础架构预测性分析模型的可靠性与可迁移能力；探索元学习、少样本学习、脉冲神经网络等机器学习前沿技术在数据中心的应用案例。在国际学术期刊和IEEE Transactions发表论文20多篇，申请美国专利30余项，译著三本，参与编著一本。

工作流程概述

基于数据中心集群资源的深度学习工作负载统一支持框架的构成组件与工作流程下图所示。

▲深度学习工作负载的统一支持框架

Deep Learning Harness

❶ 用户提交学习任务规范（或深度学习模型）与数据集；

❷ 深度学习后端服务系统按照问题类型与数据特征生成推荐模型；

❸ 为深度学习模型自动生成TensorFlow代码；

❹ 基于CPU、GPU集群计算资源池对学习任务进行优化调度；

❺ 启用深度学习工作负载监控分析工具；

❻ 载入代码与数据集，在指定资源上执行深度学习工作负载；

❼ 训练过程的实时可视化监测与检查点自动保存；

❽ 保存任务执行结果；

❾ 深度学习任务结果的分析与可视化。

接下来，我们就支持框架中的若干关键功能与实现方法依次展开讨论（如下图所示）。

▲支持框架的关键功能与实现方法

CPU-GPU计算资源池

将数据中心服务器集群中的CPU资源和各种不同类型、不同数目的GPU资源整合为逻辑上单一的计算资源池，用户可以不必花费大量精力去学习、理解不同类型计算资源的性能特点，尤其是在部署分布式深度学习工作负载时，用户只需指定期望的计算资源类型和数量即可；甚至用户可以不指定计算资源，支持框架中的资源控制器能够根据用户工作负载的特征，诸如模型复杂度、训练数据量等，动态选择***计算资源（我们会在后文中展开讨论）。

对计算资源的池化管理可以有效地实现智能调度，提高资源利用率，保证用户对深度学习工作负载的SLA要求。

深度学习任务的资源预估模型

前文中提到根据用户工作负载特征在计算资源池中动态选择***资源，这就意味着在用户学习任务实际运行之前，支持框架需要对任务的资源占用做出估计。因此，我们要利用机器学习方法构建针对深度学习任务的资源预估模型。

模型构建依据首先是深度神经网络高度结构化的特征，因此可以对模型复杂度进行量化描述；

其次是深度学习任务的资源消耗、运行时间与模型复杂度、数据规模、迭代次数等因素存在近似线性的对应关系。

以卷积神经网络为例，我们可以通过对诸如卷积层数目、卷积滤镜数目、全连接层数目、全连接层节点数目、输入图像大小、批数据大小等变量进行连续改变，从而得到一系列具有定制化结构的卷积神经网络。然后在特定类型与数量的计算资源上运行这些定制化的卷积网络学习任务，并对资源消耗、运行时间等数据进行监控记录。

这时我们就已经获得了卷积神经网络学习任务关于模型结构、资源消耗与时间性能的基准数据集，然后利用线性回归或者曲线拟合技术来构建机器学习模型。

[[269697]]

在对深度学习任务进行资源预估时，输入信息包括用户提交或者自动生成的深度学习任务代码、训练数据规模、与学习任务相关的参数例如批数据大小、迭代次数等，以及用户的期望运行时间。

首先，从代码中提取深度学习模型结构，形成量化特征描述；

其次，预估模型会按照资源池中可用的计算资源类型与数量进行运行时间估计；

随后，在满足用户关于运行时间的约束下，模型会选择能耗最小的资源配置方案作为输出。

深度学习任务的资源配置推荐

基于资源预估模型，我们构建后端web服务以实现完整的面向深度学习任务的数据中心资源配置推荐机制。按照资源池中当前可用的资源类型和数量，利用机器学习模型对特定计算资源下的任务执行时间进行估计，同时将数据中心的服务器配置、网络连接与带宽、延迟等作为经验知识，在满足用户关于运行时间的要求下，遵循能耗最小化原则，为用户提供资源配置的推荐方案。

[[269698]]

在异构GPU资源

上部署深度学习任务

数据中心的CPU-GPU计算资源池中，往往包含具有不同型号GPU的服务器集群，将用户的深度学习任务部署在由异构GPU组成的服务器集群上，无疑可以更加充分地利用数据中心的当前可用资源。但是，如果只是简单地遵循通常的分布式深度学习方法，那么在模型参数的同步过程中，相同规模的输入数据会导致性能较差的GPU引起性能更好的GPU的更新速度降低。

因此，在异构GPU资源上部署分布式深度学习任务，我们首先要考虑如何达到不同类型GPU之间的性能同步。简单来说，通过调整分配至不同GPU的批数据大小可以达到各个GPU之间参数更新的近似同步。基于资源预估模型的输出，结合自适应的批数据大小调整方法，我们可以很快找到异构GPU资源的批数据大小分配方案。

那么，当我们将输入数据的平均分配方法改为不均匀分配以屏蔽异构GPU之间的计算性能差异时，随之而来的另一个问题就是：理论上我们也改变了各个GPU节点上深度学习过程的收敛性能。所以，我们也需要相应调整深度学习模型的超参数，以保证训练任务的收敛性能不被影响。

[[269699]]

学习率通常是深度模型超参数微调的首要选项，因此我们针对特定的批数据大小，利用启发式方法去寻找对当前深度学习模型来说最合适的学习率设置。首先使学习率以指数函数形式进行递增，观察训练阶段的精度曲线，并利用高阶曲线拟合与对数曲线拟合，以启发式方法找出学习率的优化区间或优化中值，以此作为梯度优化算法的学习率设置。

分布式深度学习

工作负载的自动部署

在确定了计算资源配置和相应的参数调整方案之后，支持框架还需要实现深度学习负载的自动化分布式部署，以形成完整的深度学习工作流程。例如，我们可以使用容器化技术，将数据中心的CPU、GPU资源以容器形式进行管理和提供，使用Horovod开源框架实现深度学习负载的多节点部署，编写可重用自动化脚本以实现训练数据的多节点预先载入，工作负载的跨节点部署和启动，同时还包括监控分析工具的启动，以及对监控数据、检查点文件和训练结果的自动保存。

结语

至此，支持框架帮助用户完成了深度学习工作负载在数据中心计算资源上的自动化部署和运行，用户就可以将更多的注意力集中在商业逻辑、数据分析与预处理、模型调试等问题上。也就是说，用户只需关注深度学习任务本身，支持框架则负责帮助用户实现工作负载在计算资源上的调度与执行。

本文首发于戴尔科技集团知乎专栏

“AIoT时代的数据资产”

这是一个由戴尔易安信中国研发中心

技术大咖们所管理的专栏

AI、IoT、大数据和数据存储...

你想知道的前沿技术趋势以及深度技术剖析

我们的研发人员将会持续在该专栏分享

扫描下方二维码即可关注我们

☟☟☟