鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

轻薄滴假象

发布于 2024-4-3 12:34

浏览

0收藏

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同，展示出与横屏视频数据不同的特性。

针对这一不同，字节跳动技术团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义，论文已入选 CVPR2024。

视频 demo 展示、数据特性演示以及竖屏视频类别分类，请见 https://mingfei.info/PMV

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

论文地址：https://arxiv.org/abs/2312.13746

视频分类作为基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式，受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注，为了激发这一领域的研究，团队提出了一个专用的数据集 PortraitMode-400，包含真实的视频数据和 400 个结构化的类别标签。

进一步，通过自建数据和公开数据子集实验，团队初步展示了横屏数据和竖屏数据之间的不同，和独特的先验分布，并针对不同的技术点进行实验，提出了针对竖屏视频处理的技术方案。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM，并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型（不含任何预训练），并在相同的测试集上进行公平测试，以观察竖屏和横屏视频所含的不同数据特性。

如下方所示，以上半为例，团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试（16x9 个不重叠的均匀分布的滑窗）得到 Probing-P，同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势，团队做差值图得到 c 图，黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的，团队可以得到下半所示的差值图，S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察得到，在确保所有训练和测试条件一致的情况下，训练数据的不同带来准确率空间分布上的显著差异，而且差值呈哑铃状分布。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

横屏与竖屏视频的不同，说明竖屏视频是一种不同于以往数据的新视频格式，有着不同的数据特性。为了进一步推动领域研究，团队提出了数据集 PortraitMode-400，通过自底向上的方式综合大量的热门搜索词，人工筛查和提取得到 400 个包含显著动作内容的类别集合，涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接，并已通过人工审查的方式确保数据的高质量可用。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

此外，团队还真对竖屏视频数据的不同特性进行实验，以期提出一套合理有效的技术方案。为此，团队利用不同的模型类别，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在竖屏数据上进行广泛实验。团队发现，与传统横屏数据处理相比，竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示，在 CNN 模型下倾向于 Inception-style 方案，而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的，团队发现更好的保持原始视频在训练时的长宽比，可以在同等测试条件下获得更好的准确率。

如下半所示，随着采样框长宽比增大，Transformer 类模型表现逐渐增强，而 CNN 模型表现相反。这些实验现象表明了，竖屏数据不同于横屏数据的特性；提供了不同模型架构下的训练偏好设置。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

最后，团队还在时间信息显著性、音频模态重要性等方面进行了实验。发现时间信息的加入和音频模态的引入，都可以对竖屏数据的准确率带来不小的提升，展示了在相关领域的研究空间和可能性。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024-AI.x社区

应用落地和展望

视频分类作为基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。针对竖屏视频的专门研究可以进一步推动相关技术的发展，增强内容推荐等关键能力，进一步激发竖屏领域的其他类型研究，如生成等。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/UGSzyUkR3K4pQ9TUB-ZzHA

标签

计算机视觉视频

已于2024-4-3 12:35:28修改

赞

收藏

回复

举报

回复

相关推荐

CVPR 2024 | 通过细粒度人类反馈对齐数据，提高多模态大模型可信度

zhangyannni • 2050浏览 • 0回复
谷歌推出多模态视频模型，自动生成丰富动作视频

Aceryt • 2057浏览 • 0回复
CVPR 2024 Oral：生命之树大模型

AIGC最前线 • 2472浏览 • 0回复
MuLAn：首个实例级RGBA分解数据集

angel • 2111浏览 • 0回复
字节提出新一代数据集COCONut，比COCO粒度分割更密集

轻薄滴假象 • 2355浏览 • 0回复
字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

Crystalcxt • 1193浏览 • 0回复
CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

轻薄滴假象 • 1050浏览 • 0回复
CVPR 2024 视频场景解析挑战赛第一名方案详解

angel • 1839浏览 • 0回复
ETH北航字节推出LoRA新范式 | ICML 2024

Crystalcxt • 1178浏览 • 0回复
谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

duhorse • 1582浏览 • 0回复
百万级高质量视频数据集发布，登顶抱抱脸数据集排行榜，中科大&上海AI Lab等出品

Crystalcxt • 1273浏览 • 0回复
SEED-Bench：基于生成理解的多模态大语言模型基准测试（CVPR2024）

AIRoobt • 3475浏览 • 0回复
OpenAI、百度、阿里、腾讯、字节、快手最全 AI 工具集，你使用最多的是 ChatGPT 嘛？

wsp_ping • 1894浏览 • 0回复
能训出SOTA模型的优质数据集发布！复旦最新VidGen-1M: 文生视频还得靠好数据

angel • 1183浏览 • 0回复
破解AI多模态理解难题：浙江大学与字节跳动联手推出Molecule-Space新方法

AI论文解读 • 1308浏览 • 0回复
自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

xuxiangda • 3080浏览 • 0回复
从数据集到模型：视频和音频情绪分析的综合研究

xuxiangda • 1144浏览 • 0回复
是时候接受真实世界的检验啦！UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy

angel • 950浏览 • 0回复
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一

angel • 1583浏览 • 0回复

轻薄滴假象

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价 4天前发布
全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍 2025-02-21 13:20:31发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

上一篇：华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

下一篇：值得你花时间看的扩散模型教程，来自普渡大学

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载