InternLM-XComposer2.5-OmniLive:用于长期流媒体视频和音频交互的综合多模态人工智能系统 原创
01、概述
随着人工智能的发展,构建能够实时感知环境、进行复杂推理并记忆的系统,已成为研究者们追求的目标。这不仅要求 AI 系统能处理音频、视频和文本等多模态数据,还需在动态环境中模拟人类感知、推理与记忆的协同能力。然而,现有多模态大语言模型(MLLMs)在这方面仍存在诸多限制,尤其是在同时处理任务时的效率和可扩展性。
为解决这些问题,来自上海人工智能实验室、中国香港中文大学、复旦大学、中国科技大学、清华大学、北京航空航天大学和商汤集团的研究团队推出了一款创新框架——InternLM-XComposer2.5-OmniLive (IXC2.5-OL)。通过模块化设计,该系统将感知、记忆与推理功能解耦,实现了高效的实时多模态交互,为模拟人类认知提供了全新范式。
02、现有系统的局限性
1)感知与推理的割裂
大部分主流模型采用序列到序列的架构,这种设计导致系统在处理多模态数据时,需要在感知和推理间频繁切换。例如,模型在分析视频流时可能会停顿以处理文本任务,类似于“人在观察时无法思考”的状态。
2)数据存储的低效
当前模型依赖扩展上下文窗口存储历史数据,但多模态数据(如视频流和音频流)会在短时间内生成海量信息,这种方法难以支撑长时间的数据积累。例如,一个小时的视频可能转化为数百万个标记,这对存储和检索都是巨大的挑战。
3)模型架构的单一性
现有方法如 Mini-Omni 和 VideoLLM-Online,虽然尝试填补文本与视频理解之间的鸿沟,但因过度依赖顺序处理和有限的记忆整合能力,难以达到人类级别的认知效果。
03、InternLM-XComposer2.5-OmniLive 的创新设计
IXC2.5-OL 通过模块化架构模拟人脑,将感知、记忆和推理分解为三个独立但协同工作的模块:
- 流式感知模块(Streaming Perception Module)
- 多模态长时记忆模块(Multimodal Long Memory Module)
- 推理模块(Reasoning Module)
1)流式感知模块:实时数据捕获与编码
该模块处理实时音频和视频流,使用先进模型如 Whisper(音频编码)和 OpenAI CLIP-L/14(视频感知)提取高维特征。
- 任务:捕获并编码关键信息,如语音内容、环境音等,直接存入记忆模块。
- 应用:音视频会议的实时字幕生成、智能监控中异常事件识别。
2)多模态长时记忆模块:高效存储与检索
此模块的核心功能是将短期记忆压缩为高效的长期表示。
- 方法:通过算法优化,能够将数百万帧视频浓缩成紧凑的记忆单元,有效减少存储成本并提升检索准确性。
- 优势:大幅降低计算资源的占用,为实时交互提供支持。
3)推理模块:信息检索与复杂任务执行
推理模块通过检索记忆模块中的相关信息,快速完成复杂任务,如回答用户问题或执行指令。
- 特点:实现感知、推理与记忆的同步协作,避免传统系统中各模块割裂运行的效率低下问题。
- 应用:智能问答系统、实时决策支持。
04、性能测试与研究成果
1)卓越的基准测试成绩
IXC2.5-OL 在多项国际权威测试中表现出色:
- 音频处理
a. 在 Wenetspeech 中文测试集上,语音识别的词错误率(WER)为 7.8%,远超 VITA 和 Mini-Omni。
b. 在 LibriSpeech 英文基准上,“清晰”环境下的 WER 为 2.5%,而在噪声环境中也达到了 9.2% 的优秀成绩。
- 视频处理
- 在 MLVU 和 StreamingBench 的视频推理与异常识别测试中,分别取得了 66.2% 和 73.79% 的评分,创下行业新高。
2)高效的多模态处理能力
流式感知模块通过压缩和记忆机制,实现了对多模态数据的实时处理。
系统能够同时处理数百万标记,检索速度快且数据损失率低,适合需要长期交互的动态环境。
3)开放性与易用性
研究团队已将全部代码、模型及推理框架公开,开发者可以快速集成并根据实际需求进行优化。
05、实际应用场景
1)智能监控与异常检测
IXC2.5-OL 的实时视频处理能力,适用于智能监控系统中异常事件的自动识别,如公共场所的行为异常分析。
2)智能会议助手
通过实时感知音频与视频流,该框架可为企业提供智能会议助手服务,包括实时记录、摘要生成以及任务提醒。
3)教育与学习
在在线教育中,IXC2.5-OL 可作为虚拟导师,实时分析学习者的行为反馈并调整教学策略,同时记录学习数据以优化课程内容。
4)医疗辅助诊断
长时记忆模块能够存储并快速检索患者的历史病历数据,结合实时感知与推理功能,辅助医生做出准确诊断。
06、结语
IXC2.5-OL 的模块化设计从本质上解决了传统系统的诸多局限:
- 感知、记忆与推理的分工协作:模拟人脑的处理方式,确保了系统的高效性与可扩展性。
- 实时多模态交互:实现了音频、视频和文本的同步处理,为动态环境中的复杂应用提供了解决方案。
- 高效存储与检索:通过记忆压缩机制,将长期多模态交互的计算与存储成本降至最低。
随着 AI 技术的进一步发展,IXC2.5-OL 不仅将继续推动人机交互的革新,还为构建更接近人类认知的 AI 系统提供了重要参考。
参考:
- https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive
- https://huggingface.co/internlm/internlm-xcomposer2d5-ol-7b
- https://github.com/InternLM/InternLM-XComposer/blob/main/InternLM-XComposer-2.5-OmniLive/IXC2.5-OL.pdf
本文转载自公众号Halo咯咯 作者:基咯咯