深入研究多模态生成式人工智能-51CTO.COM

多模态生成人工智(GenAI)能被认为是我们实现通用人工智能道路上的下一件大事。

这是一个经过设计、理论化和实施的概念，旨在提供多感官沉浸式体验。

其从多种数据类型的组合中提取输出，以提供见解、内容等响应。

继续阅读，了解多模态生成式人工智能、其好处、潜力和采用以及相关问题。

过去几年推出的多种生成式人工智能工具证明了过去十年人工智能(AI)技术取得的突破。在相对较短的历史中，GenAI已经创造了一种紧迫感，将其引入任何组织的日常和利基操作元素。

虽然OpenAI的首个文本到图像生成器DALL-E的真实感对大多数组织来说作用有限，但ChatGPT的推出不到一年，已经让组织通过寻找各种途径来获得优势，其中生成人工智能可以积极影响运营。

根据McKinsey的《人工智能现状》，到2023年，三分之一的组织将把GenAI纳入至少一项业务功能。此外，在McKinsey的调查中，约75%的受访者预计GenAI将给其行业带来颠覆性的变化。

人工智能功能主要用于产品开发、功能添加、客户体验、营销功能等。

然而，GenAI现在采取了不同的形式，称为多模态，其接受多种感官输入，以相似或不同的数据类型提供输出。例如，ChatGPT的新更新赋予了其多模态的能力，其现在不仅可以生成故事、文章和其他文本，还可以阅读。ChatGPT还可以通过语音提示执行任务。其还可以读取图像来识别特定的物体。

多模态GenAI被认为是我们实现通用人工智能之路上的下一件大事。让我们来看看它是什么。

什么是多模态生成式人工智能?

多模态GenAI是一个经过设计、理论化并正在实施的概念，旨在提供多感官沉浸式体验。其从多种数据类型的组合中提取输出，以提供见解、内容等响应。

多模态生成式人工智能是一种人工智能，其结合了多种类型或模式的数据，如文本、图像、视频、音频、深度等，来创造更多对“现实世界”的设置、场景或问题做出准确的判断或更精确的预测。这些模型接受了它们需要解释或响应的多种模式/数据类型的数据集的训练。

多模态GenAI与GenAI类似，不同之处在于其利用多维嵌入或索引，并且可以依赖向量数据库进行操作。这种差异的核心在于，多模态GenAI可以通过多维嵌入或索引来摄取、处理和输出多种类型的数据。

Meta今年早些时候发布的ImageBind多模态人工智能在ChatGPT的基础上更进一步，集成了六种模态，即文本、图像/视频、音频、深度、基于红外的热辐射和惯性测量单元(IMU)。该企业还将更多感官的整合，包括嗅觉和触觉，以及大脑功能磁共振成像信号作为多模态研究的一部分。

多模态生成式人工智能的好处

组合和处理来自多个来源的信息可以潜在地将差异均质化，以提供情境相关的结果。在企业环境中，这可以提高员工的工作效率。

通过为机器交互创建新的途径，多模态GenAI可以重塑终端用户和业务用户的用户体验。

鉴于其在物理科学、生命/生物科学和社会科学研究中的应用潜力，其还具有一定的社会和科学效益。甚至在GenAI兴起之前，即2021年6月，Google就能够利用其基于强化学习算法的机器学习模型来执行半导体布局规划，这是芯片设计的关键步骤。

最终，其可以基于跨多种模式的大量数据存储，在多感官/多模式空间中做出越来越准确的确定和预测。其不仅可以比人类更快地接受数据训练，而且还可以更快地根据数据做出决策。

多模态生成式人工智能的采用

多模态GenAI已经看到了GenAI的一些应用，例如Adobe的Firefly–文本到图像多模态和MidJourney。请注意，两个GenAI的多模态使其能够接受音频和视觉输入。

多模态的另一个商业用例包括基于电话的自动化支持系统，该系统可能会将我们语气中明显的情绪转化为企业可用于报告和分析的文本数据。

另一方面，其也可能被用来损害用户的利益。一些“企业”已经开始使用文本到音频多模态模型来生成更真实、更动态的声音，通过电话进行诈骗。

然而，就像以前的技术发明一样，多模态和常规GenAI允许数十种职业发展。律师、作家、科学家、教师等可以优化耗时的任务，例如研究、战略制定、文件起草和生成等，前提是这些任务属于多模态GenAI工具所训练的基础数据的范围。

简而言之，如果可以获得正确的数据，知识经济可能会发生巨大转变。

这是一个很大的“如果”。

这就是为什么我们距离主流应用渗透到社会结构还有数年的时间，主要是因为创建多模态人工智能的技术困难，其次是由于当前数据的限制。

总而言之，以有意义的方式使用多模态GenAI的能力不仅会变得复杂，因为模型本身更复杂，制作成本更高，且因数据的敏感性，围绕制作和使用其程序可能会更加棘手。所有这些都可能会减缓技术的广泛采用。

多模态生成人工智能可用于改善制造质量控制、汽车预测性维护以及制造供应链优化。在医疗保健领域，其可以处理患者的生命体征、诊断数据、扫描图像、外观和其他文本/图像/音频/视频记录，以改进诊断和治疗计划。在零售业中，其可以分析来自各种来源的数据，包括传感器、摄像头和录音，以识别模式并预测未来的客户行为。还有更多。

从广义上讲，多模态GenAI可以为开发带来新的视觉元素。我们应该看到某些类型的视觉和交互设计被颠覆，因为这很有可能能够使用能够接受文本输入或视觉示例的模型来生成软件前端和用户体验的某些方面，并生成执行其所需的设计资产和前端代码。

此外，通过促进AR/VR的创造力，虚拟服务将出现在面向患者的医疗保健运营和多个其他行业中。沉浸式技术的改进在娱乐行业有明显的应用，但也可以在医疗技术/无障碍设备行业、制造业，甚至是设计和建筑等知识工作行业中创造令人兴奋的新事物。