多模态AI：概念、用例、优势、挑战及发展未来-51CTO.COM

译者 | 晶颜

审校 | 重楼

多模态AI的应用范围正在不断扩大，那么究竟什么是多模态AI？它又是如何运行的？

生成式AI在短短几年内取得了长足的进步，从基本的文本响应发展到复杂的散文。随着多模态AI（Multi-modal AI）的发展，这项技术的界限正在进一步扩大。如今，多模态AI正在涉足从医疗保健到机器人等多个行业。谷歌、OpenAI、Anthropic和Meta等科技巨头也纷纷推出了自己的多模态AI模型。

什么是多模态AI？

多模态AI是指同时利用各种类型（或模式）数据形成见解、做出预测和生成内容的AI系统。

多模态模型能够处理文本、图像、视频、语音等信息，以完成一系列任务，例如根据食物照片生成食谱，或是将音频剪辑翻译成多种语言等。

这与大多数只能处理单一模式数据的AI模型不同。例如，大型语言模型（LLM）只能处理文本数据，而卷积神经网络（CNN）只能处理图像。

简单来说，多模态实际上是在尝试复制人类的感知方式：我们将视觉、声音和触觉等感官输入结合起来，形成对现实的更细致入微的感知，并利用这些数据来做出决定或采取行动。多模态模式也在尝试做同样的事情。通过在单个模型中集成多种数据类型，多模态AI系统可以更全面地了解其环境。

多模态VS单模态

多模态AI模型可以同时处理多种类型的数据，而单模态AI模型仅限于单一类型的数据输入，并且只能以特定的数据模态提供输出。例如，支持ChatGPT免费版本的GPT-3.5只支持文本输入和输出，它就属于单模态；但另一款ChatGPT模型GPT- 40可以处理文本、图像和音频数据，它就属于多模态。

多模态AI运行原理

多模态模型通常建立在转换器（Transformer）架构上，通过计算数据点之间的关系，以理解和生成数据序列。它们处理“大量”的文本数据，删除一些单词，然后根据周围单词的上下文预测缺失的单词是什么。对于图像、音频和模型设计用来理解的任何其他类型的数据，亦是如此操作。

这是通过一个称为“嵌入”（Embedding）的过程来完成的，在这个过程中，原始数据被编码成系统更容易理解和处理的数字格式（向量）。例如，文本数据被分解成单独的标记（单词、字母等），这些标记被转换成数字。音频数据被分割并分解为音高和振幅等特征，这些特征也被转化为数字。然后将所有这些数字输入到转换器中，转换器捕获不同模态内部和之间的关系和上下文。

在少数情况下，模型是“原生多模态”的——专门为处理多种数据类型而构建的——Embedding通过一个称为“早期融合”（Early Fusion）的过程同时发生，该过程将来自每种模态的原始数据组合、对齐和处理，使它们都具有相同（或相似）的数学表示。例如，这个模型不仅学会了“鸭子”这个词，还学会了鸭子的样子和声音。从理论上讲，这使得该模型不仅能够识别鸭子的照片、鸭子的嘎嘎声或字母“D-U-C-K”，而且还能识别鸭子是什么这一更广泛的“概念”。

然而，这种方法的实现并不容易，这就是为什么目前存在的许多多模态系统都需要在后期通过一个称为“后期融合”（Late Fusion）——即在每种类型的数据分别进行分析和编码之后——的过程合并来自多个模态的信息。后期融合提供了一种结合和比较不同类型数据的方法，这些数据在各自的形式中外观、大小和含义各不相同。

在开发出多模态模型后，使用带有人类反馈的强化学习（RLHF）和红队等技术对其结果进行微调，以减少幻觉、偏见、安全风险和其他有害反应。一旦完成，该模型的行为应该类似于LLM，但具有处理文本以外的其他类型数据的能力。

多模态AI用例

以下是如今多模态AI应用的一些关键领域。

聊天机器人

配备多模态的AI聊天机器人可以比纯文本聊天机器人更有效地响应用户，提供更丰富、更有用的答案。例如，用户可以输入一张垂死的室内植物的照片，并获得如何使其起死回生的建议，或者获得他们链接到的视频的详细解释。

AI助手

像亚马逊的Alexa和谷歌助手这样的AI助手之所以存在，是因为多模态AI。这些智能设备可以通过简单的语音命令进行控制，允许用户调出特定的图像和视频，接收当前事件、指令和一般信息（音频和文本格式），甚至调整家中的照明和温度。

医疗保健

医疗领域需要解释几种形式的数据，包括医学图像、临床记录、电子健康记录和实验室测试。单模态AI模型在特定模式下执行特定的医疗保健任务，例如分析X射线或识别遗传变异。LLM通常被用来帮助用简单的术语回答与健康相关的问题。现在，研究人员开始将多模态AI引入其中，开发新的工具，将来自所有这些不同来源的数据结合起来，帮助进行医学诊断。

自动驾驶汽车

由于多模态AI，自动驾驶汽车可以处理和解释来自多个来源的数据。摄像头提供有关车辆环境的视觉信息，雷达探测物体及其速度，而激光雷达测量物体之间的距离，GPS提供位置和导航数据。通过将所有这些数据放在一起并进行分析，AI模型可以实时了解汽车周围的环境并做出相应的反应——它们可以发现障碍物，预测其他车辆或行人的位置，并决定何时转向、刹车或加速。

机器人

配备多模态AI的机器人整合了来自摄像头、麦克风和深度传感器的数据，使它们能够更准确地感知环境并做出相应的反应。例如，它们可以使用摄像头来观察和识别物体，或者使用麦克风来理解口头命令。甚至可以通过传感器固定，让它们拥有触觉、嗅觉和味觉等人类拥有的全部五种感官。无论是人形机器人还是装配线上的协作机器人，多模态AI都能给各种机器人在不同的环境中有效地导航。

多模态AI的优势

更好地理解上下文

在学习过程中，多模态模型同时集成和分析广泛的数据类型，这使它们对给定主题有了更全面的上下文理解，而非每个单独的数据类型单独能够传达的内容。

例如，如果一个多模态模型被提示生成一段狮子的视频，它不仅会把“狮子”这个词看作是一个字母序列——它还会知道狮子的样子，狮子是如何移动的，以及狮子的吼声是什么样的。

更准确的结果

由于多模态模型旨在识别不同类型数据之间的模式和联系，因此它们往往能够更准确地理解和解释信息。

它们不仅可以通过分析文本，还可以通过分析图像来加强结果，从而更准确地预测，或者回答以前无法回答的问题。需要注意的是，多模态AI仍然有可能出错，并可能产生偏见或其他有害的结果。

胜任更广泛的任务

多模态AI系统可以处理比单模式AI系统更广泛的任务。根据特定的模型，它们可以将文本提示转换为AI生成的图像，用简单的语言解释视频中的内容，根据照片生成音频剪辑等等。同时，单模态系统只能完成其中的一项任务。

更好地理解用户意图

多模态允许用户选择他们想要与AI系统交互的方式，而不是被困在一种交流模式中。

无论用户是用动作、语言、打字、做手势来表达自己，这都无关紧要。多模态AI系统可以让用户更好地控制他们想要表达的内容，以更好地捕捉他们的真实意图。

更直观的用户体验

由于多模态系统允许用户根据自己的感觉以几种不同的方式表达自己，因此用户体验“感觉更加直观”。例如，用户可以上传一段音频片段，而不必描述他们的汽车引擎发出的声音，从而获得有关问题的建议。或者，他们可以上传冰箱和食品储藏室的照片，而不是列出厨房里所有的食物来寻求食谱建议。

多模态AI的挑战

需要更多的数据

由于它们使用多种不同的模式，因此多模态模型需要大量数据才能正常工作。例如，如果一个模型的目标是将文本转换为图像，反之亦然，那么它需要有一个健壮的文本和图像数据集。

此外，模型所需的数据量还会随着模型中参数（变量）的数量而增加。随着参数数量的增加，模型需要的数据也就越多。

有限的数据可用性

并非所有的数据类型都很容易获得，尤其是不太传统的数据类型，比如温度或手部运动。互联网是许多AI模型训练数据的重要来源，它主要由文本、图像和视频数据组成。因此，如果您想要制作一个可以处理任何其他类型数据的系统，则必须从私有存储库购买或自己制作。

数据很难对齐

正确地对齐多个不同的数据类型通常很困难。数据的大小、规模和结构各不相同，需要仔细处理和集成，以确保它们在单个AI系统中有效地协同工作。

计算密集且昂贵

在很大程度上，多模态之所以成为可能，要归功于当今前所未有的计算资源。这些模型需要能够同时处理海量的不同数据类型，这需要大量的计算能力。此外，在应用程序中部署多模态AI还需要强大的硬件基础设施，这进一步增加了其计算需求和环境足迹。

更重要的是，它通常还很昂贵。单模态模型本身就很昂贵——传言GPT-3花费了OpenAI近500万美元，而Meta估计在Llama 2上花费了2000万美元。多模态比这些模式还要贵“好几个数量级”。

加剧现有的GenAI问题

常规GenAI模型的许多问题——即偏见、隐私问题、幻觉——在多模态模型中也很普遍。多模态AI实际上可能会加剧这些问题。

在数据集中，偏差几乎是不可避免的，因此将来自不同来源的数据结合起来可能会导致更明显和更广泛的偏差结果。处理不同类型的数据还可能涉及敏感信息，进一步增加数据隐私和安全的风险。此外，整合多种数据的复杂性可能会增加产生不准确或误导性信息的风险。

这些问题给机器人应用带来了更大的风险，因为它们的行为会对物理世界产生直接影响。

您的机器人——无论是无人机、汽车还是人形机器人——都将在现实世界中采取某种行动，并产生物理后果。如果您在控制机器人的模型上没有任何护栏，就有可能出现幻觉或对数据的错误解释，导致机器人采取可能危险或有害的行动。

多模态AI的未来

许多专家认为，最终，多模态可能是实现通用AI（AGI）的关键。通用AI是一种理论形式的AI，可以像人类一样理解、学习和执行任何智力任务。通过结合各种类型的数据，多模态模型可以对周围的世界形成更全面和全面的理解，这反过来又可以使它能够在广泛的任务中应用知识，甚至比人类更好。

史蒂文斯理工学院机械工程系副教授Brendan Englo表示：“在寻求一种看起来更像人类智能的AI时，它必须是多模态的。它必须像人类一样处理尽可能多的输入模式——视觉、语言、触觉、身体动作——并且能够以与人类相同的智能对所有这些事情做出反应。”

原文标题：Multimodal AI: What It Is and How It Works，作者：Ellen Glover

链接：https://builtin.com/articles/multimodal-ai。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/