赖耶 AI 工厂-基于 NVIDIA AI Enterprise 的优秀落地实践-51CTO.COM

本次分享主要介绍赖耶 AI 工厂提供的多项服务和解决方案，包括万卡集群管理系统 KAA、企业大模型服务平台 MANAS 等。赖耶 AI 工厂致力于为客户提供高性能的人工智能解决方案，涵盖了从算法创新到产品落地的全链条能力。文中将详细介绍赖耶 AI 工厂的技术优势、服务内容，以及如何通过一体化集群解决方案来满足企业在人工智能领域的需求。

一、为什么选择赖耶 AI 工厂

首先来介绍一下赖耶科技推出的赖耶 AI 工厂。

1. 公司介绍

北京赖耶信息科技有限公司（以下简称“赖耶科技”）是一家致力于为行业提供全栈式大语言模型（LLM）技术服务的公司。我们的使命是通过先进的技术手段，推动各行各业的智能化转型。

核心团队成员来自于各大行业顶级公司及研发机构，包括 Nvidia、Qualcomm、VMware、华为、阿里巴巴达摩院及京东等。这些成员在各自领域拥有丰富的专业知识和实践经验，共同构建了公司坚实的技术基础。

赖耶科技在高性能计算集群建设、基础设施及大模型应用方面积累了丰富的实践经验。我们的技术覆盖面广泛，涉及人工智能、计算机科学、机器人技术、自动驾驶及自然语言处理等多个领域。从算法创新到产品落地，赖耶科技具备完善的全流程技术能力。公司愿景是建立一个人工智能铸造厂，为客户提供“开箱即用”的企业级人工智能解决方案。

2. 企业如何面对开发生产式 AI 带来的挑战

在当前的大模型时代，企业在定制人工智能（AI）解决方案时往往会遇到诸多挑战。

（1）构建基础大模型的挑战

数据需求：大模型的训练通常需要海量的数据，这不仅是为了避免模型过拟合，更重要的是为了提升模型的泛化能力。然而，许多企业在实际操作中会遇到数据不足或者数据质量不高的问题，这对模型的性能和实际应用造成了直接的影响。
计算资源：训练大模型需要大量的计算资源，包括高性能的计算硬件和复杂的分布式计算架构的支持。对于大多数企业而言，高效利用庞大的计算资源是一项巨大的挑战。此外，由于模型的复杂性，训练过程可能需耗时数天甚至数月，这进一步增加了资源管理的难度。
模型选择与优化：选择合适的模型并根据业务需求进行优化是企业在大模型应用中的另一大难题。在选择和优化模型时，必须综合考虑带宽、能耗、存储等各方面的成本，这些因素将直接影响到模型的效果和企业的总体运营成本。

（2）使用基础大模型的挑战

泛化能力：尽管大模型在训练数据集上表现出色，但在未见过的数据上，模型的表现可能远不如预期，这种泛化能力的不足是绝大多数大模型面临的共同问题。
模型解释性：许多大模型，尤其是深度神经网络，其决策过程通常是“黑箱”的，难以理解和解释，这对许多应用场景中的透明度和可信度提出了挑战。
过拟合风险：大模型由于参数众多，更容易出现过拟合现象，即在训练数据上表现优异，而在新数据上表现不佳，这种现象会影响模型的稳定性和可靠性。
伦理与偏见：大模型可能无意中学习并放大训练数据中的偏见，导致在实际应用中出现不公平或歧视性的结果，这种伦理问题已成为大模型应用中的重要挑战之一。

赖耶AI 工厂所提供的解决方案可以帮助企业面对上述挑战。

3. 赖耶 AI 工厂全览图

赖耶 AI 工厂，由底层架构、中间平台以及应用层共同构成了一个功能强大、灵活高效的 AI 解决方案平台。

（1）底层架构：万卡集群管理系统（KAA）

底层架构是赖耶 AI 工厂的基础，由万卡集群管理系统（KAA）提供支持。具备以下功能：

IO 通信优化：提升输入输出数据的传输效率，确保系统的高效运行。
虚拟化：实现资源的虚拟分配与管理，提升资源利用率。
云原生管理和编排：支持云端编排与管理，便于对大规模计算资源的动态管理。
高性能多租户隔离：为不同租户提供独立的计算环境，确保安全性和性能。
计量计费：精确的资源使用计量和计费系统，便于企业管理成本。
动态扩展部署：支持计算资源的动态扩展和灵活部署，以满足不同业务需求。

（2）中间平台：Manas 平台

在中层，通过 Manas 平台为大模型提供全套解决方案，涵盖了从数据预处理到模型各阶段的支持，包括：

数据预处理：确保数据质量，为模型训练提供坚实基础。
预训练：通过大规模数据的初步训练，获得基础模型。
模型对齐：根据特定任务对模型进行对齐调整。
模型微调：根据具体应用场景对模型进行进一步优化和微调。
安全护栏：保障模型使用过程中的安全性和合规性。

（3）应用层：Manas 微服务

上层是通过 Manas 平台的微服务模块，针对不同应用场景提供快速系统集成的服务。应用场景包括：智能推理、语音和翻译、生物医药、内容生成、路径规划等。

赖耶 AI 工厂在自身的 AI 数据标注、行业模型训练精调、仿真测试环境等环节使用了大量算力，形成了一系列成熟的解决方案，这些方案可以应用于客户项目中，加速客户的 AI 生产效率，帮助企业打造新一代智能化基础设施，提供高性能的模型训练和推理平台，并构建自主可控的 AI 技术体系。

二、万卡集群管理系统 KAA

接下来从底层开始介绍赖耶 AI 工厂。首先来看一下万卡集群管理系统 KAA，如何助力企业大模型开发提速。

1. 解决超大规模组网需求

万卡集群的管理技术主要涉及模型训练、数据传输以及集群管理等关键问题。如下：

高带宽数据传输
AI 模型训练和数据传输需要高带宽支持，以实现快速的数据交换，尤其是对于大规模模型参数的传输，如果带宽不足，将导致数据传输缓慢，继而影响模型训练的效率。
低延时协同工作
低延时对于保持集群中各节点的高效协同工作至关重要。高延迟会导致同步操作的延迟，影响训练的实时性。采用高性能的网络技术（如 InfiniBand，简称 IB），可以显著减少延迟，提高集群的稳定性。
高可靠性与故障恢复
对于长时间运行的 AI 训练任务，集群的稳定性尤为重要。任何硬件故障或网络中断都可能导致训练任务中断，需要重新启动，会浪费大量时间和资源。因此，集群需要具备高可靠性和故障恢复能力。
自动化部署与维护
自动化部署可以加快集群的搭建和维护速度，减少人为失误。自动化部署配置需要进行全面的核查，以确保系统稳定性和性能。
资源隔离与管理
在共享的 AI 万卡集群中，不同用户和业务需要进行隔离，以保证资源分配的公平性和数据安全。我们的资源管理技术能够限制不同业务对计算和 IO 资源的使用，实现资源隔离和优先级调度。

2. 网络设计

构建一个高效的万卡集群网络拓扑，需要考虑如下一些因素：

确定算力规模
在构建 AI 万卡集群时，首先需要评估所需的计算能力，涉及到模型的复杂度、训练数据的规模以及期望的训练时间。
选择加速卡类型
加速卡的选择取决于算法的特定需求和预算情况，不同类型的加速卡在性能和成本上有所不同，选择时需要综合考虑。
确认存储需求
根据数据集的大小和训练过程中对 IO 的需求，选择合适的存储解决方案，以确保数据的快速读写和高吞吐量。
管理和安全需求
设计集中管理系统，用于集群性能监控、作业调度、资源分配和安全防护，这是保证集群高效运行和数据安全的基础。
网络分区规划
合理划分网络区域，以支持不同业务需求，并保证网络的可扩展性和安全性。
高速网络设计
计算节点之间的高速网络设计至关重要，从而减少节点之间的通信延迟。
存储网络设计
构建高效的存储网络，以确保数据传输具备高带宽和低延时，支持快速的数据访问。
接入区设计
设计一个稳定且安全的接入区，允许用户和应用程序安全地接入集群。
智能中心网络建设
建立智能中心网络，用于优化资源分配，提高作业调度效率，并支持未来扩展。

遵循上述原则，即可构建一个高性能、高效率且可扩展的 AI 万卡集群，以支持复杂的 AI 训练和推理任务，有效解决高带宽和低延时的痛点，为未来的 AI 应用奠定坚实的基础。

3. 赖耶 AI 集群管理平台 KAA

KAA 平台所提供的关键能力包括：

统一管理平台
KAA 平台提供了一个集中化的统一管理界面，用于监控和管理整个 AI 基础设施，包括硬件资源、网络配置和软件应用的全方位管理。
自动化工具与流程
为简化 AI 集群的部署工作，KAA 平台提供了多种自动化工具和流程。这些自动化工具能够最大限度地减少人为干预，加快部署速度。
智能调度算法
在优化集群资源使用方面，KAA 平台采用了智能调度算法来优化资源分配。该算法能够提高计算资源的利用率，确保关键任务能够得到必要的资源支持，进而提升整体性能。
综合监控系统
平台配备了综合的监控系统，能够实时跟踪集群的性能，快速识别和解决问题，保证系统的稳定性和可靠性。
多租户与计费计量支持
KAA 平台支持多租户架构，允许多用户访问并使用平台资源。通过隔离的资源和计费系统，为不同的用户和业务单元提供透明且公平的费用计算。

通过上述功能，KAA 平台可以显著提升 AI 项目的工程效率，降低成本，加速 AI 模型的开发和部署，同时确保资源的高效利用和系统的稳定运行。

KAA 平台提供了非常简洁的操作界面，如上图所示。用户可以一键完成集群的系统安装、算力分配、算力聚合和算力配置等操作。

自动化系统安装：管理员通过简单的一键操作即可安装整个集群的操作系统。这个过程是高度自动化的，减少了手动配置每台服务器的需求，从而节省了大量时间并减少了人为错误。
灵活的算力配置：平台提供了直观的算力配置工具，允许管理员根据不同的工作负载需求灵活分配和调整计算资源，包括 CPU、GPU、内存和其他硬件资源配置，都可以在 KAA 平台上灵活选择和调整。
高效的算力聚合：KAA 平台能够有效地聚合集群中的所有计算资源，形成一个统一的资源池，不同的作业和任务可以共享这些资源，从而提高了资源利用率，并允许更高效的作业调度。
自动化算力分配：平台的自动算力分配功能，可以根据作业的优先级、资源需求和截止时间等参数，自动将计算资源分配给最合适的作业。

KAA 平台是一个全面的集群管理解决方案，提供了从物理基础设施到单个硬件组件端到端的管理能力。平台覆盖整个数据中心集群的各个层面，确保了整个计算环境的完全控制和优化。

机柜层面的基础设施管理：KAA 平台能够管理机柜层面的基础设施，包括电源分配、冷却系统和机架组织的优化等。通过这些措施，确保硬件在适宜的物理环境中运行，从而提高整体效率和稳定性。
网络层面的管理：KAA 平台扩展到网络层面，可以管理交换机和网络连接，确保数据传输的高效性和可靠性，包括监控网络流量、优化网络配置以及保障网络的安全性和隔离性。
服务器级别的管理：KAA 平台提供对每台服务器的管理，包括操作系统的安装、更新和维护，以及服务器硬件的状态监控和故障排除等。
单个硬件组件的管理：KAA 平台能够对单个硬件组件进行管理，如 GPU、CPU 和内存。用户可以细致地监控和调整这些关键组件的性能和健康状态，确保它们运行在最佳状态下。
Nsight 工具的集成：KAA 平台结合了 Nsight 工具，这是一款强大的硬件分析工具。通过 Nsight，用户可以观察每个 GPU 的行为，及时发现和解决潜在的性能瓶颈和故障问题，从而提高整体计算效率和稳定性。

KAA 集群管理系统利用 BCM 技术实现了集群的全面监控和自动化部署。系统部署在北京赖耶办公室的 L20 集群中，包含算力节点、管理服务器和网络交换机等设备。通过 2D 和 3D 视角，可以直观地观察设备的健康状态。

系统提供了灵活的监控和警告功能，允许用户自定义监控模块和告警刷新频率。通过监控页面，用户还可以集中管理和监控 CPU、GPU、内存和各节点的详细状态，资源利用一目了然。

利用 BCM 的核心功能，KAA 集群管理系统极大地简化了系统监控工作，使其更加高效、多维。此外，系统还支持对所有节点进行快速的一键安装和恢复操作。通过一键装机功能，实现了轻松的规模化部署和管理，极大提升了操作便捷性和效率。

三、企业大模型服务平台 MANAS

接下来介绍专门为企业大模型服务的 MANAS 平台。

1. 企业大模型服务平台 MANAS 介绍

大模型开发的基本流程包括以下几方面：

数据管理：数据管理涉及到数据的收集、清理、标注和存储。该平台通过 GPU 加速了训练数据的处理，例如，一个 10TB 的训练数据在 GPU 上的处理速度比在较高基准的 CPU 上要快 20 倍。
模型开发：针对模型开发过程中的模型选择、训练和测试，MANAS 平台提供了简单易用的图形化用户界面，以简化各种 AI 工厂微服务的使用。在界面上可以通过拖拉拽的方式进行操作，还支持编排算法任务和 pipeline 等多种调试运行方式，方便用户使用 NVIDIA 提供的 NIM 微服务。
模型定制：平台允许用户针对不同的数据和计算限制进行模型定制，提供了最先进的调优技术，国内 L20 最佳的优化结果，性价比提高 4 倍，成本减少 80%。
模型评估：对于大模型的评估，平台提供了快速和全面的基准测试和评估模型质量的方法。
模型部署：平台支持将训练好的模型部署到生产环境中，提供实际的应用。在推理优化方面，平台提供了低延迟、高吞吐量的部署方式，能够根据需要动态加载和卸载模型，确保单个 GPU 服务器上运行尽可能多的模型。
信息检索：嵌入和检索模型，确保召回包含答案或者直接说“我不知道”，解决了大语言模型由于专业领域知识不足引起的幻觉问题。
数据防护：将大模型保护在安全边界之内，防止恶意提示的影响，从而确保组织能够放心地部署生产就绪的 AI 大模型，确保正常安全运营。

赖耶科技还提供了一些解决数据处理痛点的功能，例如基于 DASK 和 MPI 的分布式计算、模糊和精确的重复数据去重，以及文档级的质量过滤。

2. MANAS 平台优化示例

上图展示的是 MANAS 平台 Notebook 开发界面。在这里，用户可以在不修改任何代码的情况下，加速数据处理流程。例如，对于 10 亿万行的数据，平台可以提供高达 60 倍的处理速度。

MANAS 平台提供了从算法到芯片的全链条优化，包括存储 IO 优化、网络 IO 优化、在网计算优化、IO 数据统一管理优化、分片和多 GPU 融合优化、系统内核优化、训练框架优化和模型优化。通过这些优化能够显著提升企业大模型的开发进程，帮助企业更好地实现降本增效。

上图展示了 MANAS 平台对预训练进行优化的一个例子。

Mona 是赖耶的一个高效训练框架，专为大模型预训练提供高性能的加速服务。其技术亮点主要包括：

高维张量并行：有效解决了一维张量并行中数据冗余和通信量过大的问题，同时也解决了未配备 NVLink 的计算卡在节点内采用张量并行时的通信瓶颈。
完全数据并行：在数据并行模式下，优化器参数、模型参数和梯度都均匀地分片存储在并行设备中，解决了分片不完全导致的内存冗余问题。
FP8 优化：在加速的同时，带来了更小的内存消耗。
动态选择重计算技术：大幅降低了反向梯度计算的算力消耗。Mona 动态选择内存和算力密度比值高的算子进行激活重计算，并实时根据显存占用动态调整规模。
稳定训练机制：在训练过程中，数据会被实时监控，不稳定的节点会及时下线，确保训练过程始终在可控范围内进行。针对预训练，提供了 O0 到 O3 四个优化选项，用户可以根据需求进行对比和选择。在平台的 pipeline 中，可以直接使用这些优化选项，并在 TensorBoard 中看到加速效果。以 Step Time 为例，可以从 O0 的 6 秒降到 O3 的 2 秒，实现了 3 倍的速度提升。

3. MANAS 平台的模型定制和优化

接下来深入了解一下 MANAS 平台的模型定制化套件，如何针对企业的特定需求定制大语言模型。四个阶段的模型定制流程如下：

提示工程（Prompt Engineering）：类似于对运动员进行特定训练，通过少量学习、思维链推理和系统化提示，在数据、计算和资源最小化的情况下实现良好的效果。这种方法迅速且经济，但可能无法完全掌握专业任务的复杂性。
提示学习（Prompt Learning）：在提升定制规模时，采用 Prompt tuning 和 P-tuning 等技术，相当于为运动员定制更高级的训练计划。尽管需要投入更多资源，但不会牺牲模型已有能力，并可带来更出色的性能。
参数高效微调（PEFT）：包括 Adapter、LoRA 和 IA3 等工具，专门针对特定领域进行训练，以达到最佳效果。这种方法需要更多时间和专业知识。
全面调整（Fine Tuning）：例如 SFT 和 RLHF，这类似于运动员的全面且个性化的训练方案，允许对模型进行全面调整。这种方法提供了最卓越的结果，并具有灵活的模型参数修改能力，但对数据、计算资源和专业知识的要求也最高。模型在学习新技能时可能会存在丢失已有技能的风险。

无论是在支持快速设置还是深度定制解决方案方面，MANAS 都可以提供全方位的工具，以满足大模型开发中的特定需求。从提示工程到指令调优，每种方法都权衡了数据、计算投资、准确性以及所需专业知识的复杂度，以提供最优方案。

上图展示了一个MANAS 平台的实例，利用平台的 Pipeline 工具和 Notebook 进行参数高效微调（PEFT）任务，并最终获得精调评估结果。

MANAS 平台支持市面上绝大多数的大模型框架，包括语言框架，还有图像的模型框架，在平台的模型管理模块中都可以开箱即用。

MANAS 支持快速集成 NIM API 来开发企业应用。

以上展示了如何通过 Pipeline 方式或 Agent 编排的方式，轻松部署各项 NIM 服务，构建企业级 RAG（Retrieval-Augmented Generation）应用。

四、企业级专家技术服务

1. 赖耶 AI 工厂企业专家技术支持服务介绍

赖耶工厂提供了企业级的专家技术服务。其中，业务标准支持包括，配置、性能、AI 库、工具的指导，最新的安全修复程序、维护版本以及合作伙伴之间的协调支持，还有灵活的部署，一个适用于所有平台的许可证，并提供关于控制升级、维护计划的长期支持。

增值技术支持包括，专用客户支持服务和 7*24 小时快速响应服务。

2. 客户生命周期服务

赖耶科技所提供的支持，涵盖咨询服务、部署服务、培训服务、云运维和安全服务等各个方面。

五、赖耶 AI 工厂一体化集群解决方案

接下来，介绍企业级一体化集群部署方案，从单节点到超级算力集群，帮助企业快速搭建高效计算中心。

1. 企业级一体化集群解决方案

解决方案包括：

单节点部署：支持小型企业或初创团队的初期需求。
16 节点中等规模部署：满足中型企业的大数据处理和模型训练需求。
250 节点大规模集群：面向需要高效算力的企业，支持复杂任务。
1,000 节点超大规模集群：提供万卡级算力，适用于大型企业和科研机构。

对上述规模赖耶科技均提供全面的技术支持，帮助企业顺利搭建和运行算力集群，充分利用大模型的能力。

以上就是本次分享的内容，欢迎大家持续关注赖耶科技。让我们一起见证大模型时代的进步。

六、问答环节

Q1：赖耶平台是否支持异构 AI 芯片池化？是否支持国产芯片？

A1：是的，赖耶平台支持异构 AI 芯片的混合调度，能进行池化操作，并满足多模态大模型的不同流水线要求。目前正在规划国产芯片的适配和优化。

Q2：赖耶科技对于大模型推理方面有哪些优化？

A2：主要在算法和系统两个层面上，要应对高效推理服务的各种挑战，包括：

低延迟与快速响应：特别是在实时应用中，需要保持低延迟和快速响应。
内存占用与模型规模：大规模模型需要大量内存，对于内存有限的设备存在较大挑战。
可扩展性与吞吐量：推理系统需要处理变化的请求负载，保证可扩展性和高吞吐量是关键。
硬件兼容与加速：需要有效利用硬件资源，并适配多种硬件设备。
准确性与效率的平衡：在优化性能时，可能需要在一定程度上牺牲准确性。

赖耶平台的解决方案还进行以下优化：

模型结构优化：减少自注意力计算的复杂度、共享激活和条件计算。
模型压缩：通过网络剪枝和模型量化，减少模型的内存和计算负载，提高推理速度。
请求调度优化：动态分配请求，提高资源利用率，并通过抢占式调度根据剩余执行时间调整请求优先级。

赖耶平台通过一系列优化技术，致力于克服高效推理服务中的各种挑战，提升整体性能与效率。

Q3：什么是 L20 最佳的优化技术？

A3：L20 最佳优化技术主要指 MANAS 平台对于 L20 计算的显著加速。其优化策略包括生成最佳并行方案、激活内存优化、算力图优化加速和 FP8 支持，提供了一系列提升计算效率的技术手段。

Q4：模型预训练时 checkpoint 的存储模式有哪些？

A4：模型预训练时，存储 checkpoint 主要有两种模式：

Flash 层 Checkpoint：在预训练过程中定期进行 checkpoint 存储，确保数据的稳固保存。

分布式存储支持：

提供 checkpoint 的分布式存储，保证在大规模训练中高效管理和恢复训练进度。

Q5：什么是赖耶提供的预训练加速包及其加速选项？

A5：赖耶的预训练加速包包含四个加速选项，从 O0 到 O3，分别提供不同层级的优化和性能提升。O1 的加速主要提供了并行的优化，自动选择并行方案，采用了完全分片并行技术、高维张量并行技术、流水线并行技术、异步流水线并行技术等；O2 比 O1 增加了内存冗余的优化，包括动态选择性激活值重计算，以及激活值的分片等，有效降低了内存的消耗；O3 的加速性能最优，提供了混合深度训练、计算图的优化、算子优化。

Q6：MANAS 和 Colossal-AI 的训练框架有什么区别？

A6：MANAS 在算力图优化、FP8 优化以及训练稳定性方面具有优势。

Q7：赖耶的模型精调支持哪些主流的大模型？

A7：目前支持的大模型包括：LLama 系列、Baichuan2 系列、Mistral、GPT、Bert 系列等。

Q8：数据集的构建有哪些渠道？数据集的增强手段有哪些？

A8：数据集的构建和增强手段主要有以下几个方面：

构建渠道方面：

开源数据集：目前最常用的渠道是通过获取和使用现有的开源数据集。

人工制作数据：人工手工制作的数据集，尽管前期数据量较少，但非常定制化且精准。

增强手段方面：

大模型扩展：利用大模型，从基础数据集生成更多数据，增强数据集的丰富性。

线上数据收集：在应用上线后，持续收集线上用户生成的真实数据，并定期将其加入数据集，以不断扩充和更新数据集。

通过这些渠道和手段，可以构建和增强数据集，以提高模型的训练效果和实际应用表现。

Q9：加速后准确率有折损吗？

A9：没有。

Q10：FP8 的 kernel 是只能在 H100 以上的架构上运行吗？显卡的起步款是哪款？

A10：支持 FP8 需要在 Hopper 和 Ada Lovelace 的显卡架构上运行。目前支持的显卡起步款是 L20。