鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

字节提出新一代数据集COCONut，比COCO粒度分割更密集

轻薄滴假象

发布于 2024-4-22 09:45

2349浏览

0收藏

随着人工智能的发展，语言模型和生成模型获得了大量的成功并且在设计模型的过程中，模型的参数量也越来越大。对于细粒度理解任务，模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾，例如 SA-1B 数据集中 99.1% 的 mask 都是机器生成的，但没有赋予语义的标签，而其他一些公开数据集也同样存在精度问题并且这些数据集的规模一般都比较小。

近期，字节跳动提出了新一代细粒度理解的数据集，针对当代深度学习模型的设计需求，给总量为 383K 的图片进行了全景分割的人工标注，最后达到了 5.18M 张 mask，是至今最大规模的带人工标签的全景分割理解数据集，命名为 COCONut。该成果已入选 CVPR2024。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

论文链接：https://arxiv.org/abs/2404.08639
代码和数据集链接: https://xdeng7.github.io/coconut.github.io/

视频展示了 COCONut 的单张图片的 mask 密度以及语义类别的统计，可以看出，数据集的语义丰富以及 mask 分割粒度精细。该数据集还支持多种理解任务，例如全景分割，实例分割，语义分割，目标检测，语义控制生成和开放词汇分割，在多项任务上，仅通过替换数据集就达到了明显的性能提升。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

标注方法

通常只采用人工标注是非常昂贵的，这也是目前现存的大多数公开数据集规模上不去的一个重要原因。还有一些数据集直接使用模型生成的标签，但往往这种生成的标签对模型的训练不会有太大的提高，本文也验证了这一点。所以本文提出了一种新颖的标注方式，结合人工的半自动标签生成。既能保证数据标注的精度又能实现人工劳动力的节省成本，同时还能加速标注过程。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

标注精度对比

研究者把 COCONut 和 COCO 在同一张图上的标注进行对比。从下图的对比可以看到本文提出的标注方法达到了和纯人工用 Photoshop 标注几乎一致的精度，但是在标注速度上提高了 10 倍以上。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

COCONut 数据集详情

和已有的 COCO 数据集相比，数据集各个类别的分布比较相近，但是在每张图的 mask 总量上是超过 COCO 数据集的，尤其是有大量单张图片有超过 100 张 mask 的情况，由此说明了 COCONut 的标注更为精细，粒度分割更密集。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

实验验证

除了提出一个更好的训练集，研究者还发现现有的验证集不能很好的体现模型性能的提升，因此本文还提出了一个更加富有挑战性的、可以反映模型的提升的测试集，命名为 COCONut-val. 从下表可以看到，仅替换数据集，更高精度的训练集可以带来模型很大的提升，例如在全景分割上达到超过 4 个点的 PQ。然而当训练集的规模增加了之后，可以发现，用现有的测试集做测试并不能反映出模型的提升，而 COCONut-val 则能反映出模型在增加了训练集数据量之后仍然有明显的提升。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

下图为验证集语义类别和 mask 密度的对比，可以看出新提出的验证集更具有挑战性，更能反映模型的提升。

字节提出新一代数据集COCONut，比COCO粒度分割更密集-AI.x社区

了解更多实验结果可参考原论文，团队后续将在 GitHub 主页提供数据集和相应的模型公开下载。

字节跳动智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域，借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 - 工程系统 - 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/_yqdnpKl03EYMgdKKwoABg

标签

赞

收藏

回复

举报

回复

相关推荐

极长序列、极快速度：面向新一代高效大语言模型的LASP序列并行

轻薄滴假象 • 2123浏览 • 0回复
新一代智能助手GPT-4o与Project Astra孰弱孰强，OpenAI与谷歌拉开竞赛帷幕

xuxiangda • 4305浏览 • 0回复
T2V-Turbo：新一代视频生成模型

angel • 3003浏览 • 0回复
这家世界模型公司发布中国版Sora级视频生成大模型，走向世界模型打造新一代数据引擎

轻薄滴假象 • 2787浏览 • 0回复
YOLOv9：深度解析新一代实时目标检测王者

sword_hero • 5277浏览 • 0回复
微软重磅开源 GraphRAG：新一代 RAG 技术来了！

玄姐聊AGI • 5176浏览 • 0回复
新一代的交互形式LUI（language user interface）到来，微软为它架了一座桥

Syrupup • 2899浏览 • 0回复
视频生成控制提升几十倍，新一代轻量级ControlNeXt火了，贾佳亚团队正挑战Scaling Law

轻薄滴假象 • 1934浏览 • 0回复
下一代RAG：MemoRAG

PaperAgent • 2479浏览 • 0回复
探索阿里通义千问 Qwen2.5：新一代开源大模型的卓越力量

穿越时空111 • 4500浏览 • 0回复
Zyphra发布Zamba2-7B：新一代高性能小型语言模型

Halo咯咯 • 2058浏览 • 0回复
Text2SQL 新一代解决方案Tool-SQL，基于LLM和Agent智能体实现，效果提升显著

AI博物院 • 4146浏览 • 0回复
LLM合集：微软开源新一代视频token化方法VidTok，打造高性能视频Token化解决方案

AIPaperDaily • 1785浏览 • 0回复
为什么多模态AI是下一个风口？深度解读新一代LLM

芝士AI吃鱼 • 4007浏览 • 0回复
字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

angel • 1541浏览 • 0回复
直击痛点，新一代身份保持视频生成解决方案！阿里等提出FantasyID:多视角与3D融合！

angel • 1384浏览 • 0回复
Manus 架构设计揭秘：解构下一代 AI Agent 多智能体架构

玄姐聊AGI • 2199浏览 • 0回复
别搞 GraphRAG 了，拥抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI • 1780浏览 • 0回复
新一代视频修复技术FloED性能超越所有扩散模型! | 港科大&达摩院

angel • 524浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价 2025-02-27 12:40:06发布
全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍 2025-02-21 13:20:31发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：大模型一定就比小模型好？谷歌的这项研究说不一定

下一篇：跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出动态人体渲染新范式

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载