鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

斯坦福大学：VideoAgent基于大语言模型的视频QA系统

大语言模型论文跟踪

发布于 2024-11-14 15:17

浏览

0收藏

架构

斯坦福大学：VideoAgent基于大语言模型的视频QA系统-AI.x社区图片

上图是VideoAgent的概览图，VideoAgent通过搜索、聚合视频信息来完成长视频QA。整个系统包括一个核心LLM、VLM(视觉大语言模型)和CLIP工具。

作者受到人类理解长视频的启发，提出了VideoAgent，通过基于Agent的系统来模拟这一过程的系统。

将视频理解过程形式化为一系列状态、动作和观察，其中LLM作为代理控制这个过程。首先，LLM通过浏览从视频中均匀抽样的一组帧来熟悉视频内容的背景。在每次迭代中，LLM评估当前信息（状态）是否足以回答问题；如果不够，它会确定需要什么额外的信息（动作）。随后，它利用CLIP 来检索包含这些信息的新帧（观察），并使用VLM将这些新帧描述为文本描述，从而更新当前状态。这种设计强调了推理能力和迭代过程，而不是直接处理长视觉输入，其中VLM和CLIP作为工具，使LLM能够具有视觉理解和长上下文检索能力。

斯坦福大学：VideoAgent基于大语言模型的视频QA系统-AI.x社区图片

VideoAgent的迭代过程详细视图。每一轮都从状态开始，其中包括先前查看过的视频帧。然后，大型语言模型通过回答预测和自我反思来确定后续的动作。如果需要额外的信息，就会以视频帧的形式获取新的观察结果。

假设LLM确定信息不足以回答问题，并选择搜索新信息。在这种情况下，进一步要求LLM决定需要什么额外信息，以便可以利用工具来获得额外信息。由于视频中某些信息可能出现多次，所以进行分段级别的检索而不是视频级别的检索，以增强时间推理能力。

例如，假设问题是“男孩离开房间后在沙发上留下了什么玩具？”，并且我们在帧 i 中看到了男孩离开房间。如果我们使用查询“显示沙发上的玩具的帧”进行检索，则可能在帧 i 之前存在包含“沙发上的玩具”的帧，但它们与回答问题无关。

Arxiv^[1]

引用链接

[1] Arxiv: https://arxiv.org/abs/2403.10517

本文转载自大语言模型论文跟踪，作者：HuggingAGI

标签

赞

收藏

回复

举报

回复

相关推荐

斯坦福学者推出专为Android移动设备打造的大模型，开源！

AIGC最前线 • 2.4w浏览 • 0回复
与OpenAI的Q*道殊同归？斯坦福团队发现语言模型的新路径为Q函数

xuxiangda • 3043浏览 • 0回复
斯坦福大学Gordon Wetzstein教授团队提出全息增强现实眼镜

AIGC最前线 • 3986浏览 • 0回复
斯坦福和微软联手，用大型语言模型优化诗歌创作

AI论文解读 • 2728浏览 • 0回复
斯坦福新研究：RAG能帮助LLM更靠谱吗？

duhorse • 2181浏览 • 0回复
基于DiT的长视频制作生态系统

angel • 4243浏览 • 0回复
CVD：第一个生成具有相机控制的多视图一致视频方案！（斯坦福&港中文）

angel • 2425浏览 • 0回复
中国AI大模型论文数量全球第一，清华力压麻省理工、斯坦福

Aceryt • 2251浏览 • 0回复
斯坦福、Salesforce等开源1万亿tokens多模态数据集

Aceryt • 1858浏览 • 0回复
谷歌前CEO斯坦福大学演讲内容泄露，直指 AI 是强者之间的游戏，“富者更富，穷者唯有尽力而为”

51CTO技术栈 • 2942浏览 • 0回复
斯坦福大学研究团队破解小规模语料库知识获取难题，提出创新的合成持续预训练方法

AI论文解读 • 3418浏览 • 0回复
斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

xuxiangda • 2736浏览 • 0回复
开源大模型如何治理？斯坦福基础模型研究中心给您支招

AIGC最前线 • 2441浏览 • 0回复
多智能体新进展 | 斯坦福大学提出新模型'Hypothetical Minds'，让AI更懂人类思维

AI论文解读 • 2796浏览 • 0回复
英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

angel • 2486浏览 • 0回复
将大语言模型集成到现有软件系统的完整指南

51CTO内容精选 • 2470浏览 • 0回复
腾讯的混源视频模型HunyuanVideo：大视频生成模型训练的系统框架

Halo咯咯 • 2228浏览 • 0回复
斯坦福大学团队使用多智能体强化学习训练社交推理语言模型

xuxiangda • 1612浏览 • 0回复
基于多模态大语言模型的上下文目标检测

AIRoobt • 1643浏览 • 0回复

大语言模型论文跟踪

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

EDC²-RAG：利用聚类和压缩技术提升RAG准确性 9天前发布
MES-RAG：准确率提升 25%！ 2025-03-27 07:28:13发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： 15种典型RAG框架：卡内基梅隆大学最新RAG综述

下一篇： 4种革新性AI Agent工作流设计模式全解析

社区精华内容

目录

架构
引用链接

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载