准备 YOLO 训练数据:数据标注技术和优秀实践

开发
在这篇文章中,我们将指导你如何准备用于训练YOLO模型的标注数据,从在图像中标记对象到组织你的数据集。

如果你已经对YOLO目标检测算法有了基本的了解,并且可能迫不及待地想在你的项目中尝试它。成功的关键是一个定制的训练数据集。

量身定制的数据集对于开发高精度、高效的YOLO模型至关重要,这些模型满足你的特定用例需求。通过标注你自己的数据,你确保模型学习识别与你领域相关的对象,无论是在道路上检测车辆、识别传送带上的产品,还是在建筑工地上发现安全隐患。

在这篇文章中,我们将指导你如何准备用于训练YOLO模型的标注数据,从在图像中标记对象到组织你的数据集。

YOLO 训练的数据准备

记住,一个准备充分的标注数据集不仅提高了模型的性能,还减少了训练所需的时间和资源。数据准备过程可以分为四个步骤:

  • 数据收集:收集一个大型、多样化的图像数据集,代表你希望模型检测的所有类别。你可以使用像COCO和Pascal VOC这样的公共数据集,或者收集你自己的定制数据。
  • 数据标注:每张图像都需要YOLO格式的标注,包括每个对象的类别和位置(通常是边界框)。标注的准确性直接影响模型性能。
  • 标注格式转换:YOLO需要特定格式的标注。每张图像都有一个.txt文件,列出所有对象及其类别和边界框信息。边界框的格式如下:
<object-class> <x_center> <y_center> <width> <height>

坐标是相对于图像尺寸归一化的。<object-class> 是类别索引。

  • 数据集分割:将数据集分割为训练集、验证集和测试集。这对于避免过拟合并评估模型性能至关重要。典型的分割比例是70%训练,15%验证,15%测试。

YOLO 的数据标注

现在,让我们逐步了解数据标注过程,为YOLO训练准备数据集。首先,选择一个标注工具。开源和基于云的工具都可以工作,但在线版本对于团队来说往往更高效。我们将以BasicAI Cloud为例,这是目标检测研究的流行选择。无需安装;只需在https://app.basic.ai. 注册一个免费账户即可。

我们已经收集了一个用于海龟检测的数据集。没有标注,模型无法学习,所以让我们开始标注。

上传数据

在BasicAI Cloud UI上,转到“Datasets”,点击“+Create”,选择“Image”类型,命名你的数据集,然后点击“Create”。

在预览界面中,点击蓝色“+Upload”按钮。你可以通过本地文件、URL或云存储上传。这里,我们从本地地址上传。

创建本体

让我们创建一个“Turtle”本体类别。转到“Ontology”标签页,点击“+Create”。选择边界框类型,命名它,并设置框颜色。

标注数据

回到“Data”标签页,选择所有数据,然后点击“Annotate”。

标注工具在左侧,类别在右侧。

选择“Bounding Box Tool”(快捷键‘1’)。光标变成十字准线。

提示:预先选择类别,以便自动将其分配给新框。非常适合多目标检测。

点击对象的一个角,然后点击对角,创建一个框。使用箭头工具调整边缘。详情可以参考:

https://video.wixstatic.com/video/4b3c31_95a85dde75de4bbf83e616098f9b73b1/720p/mp4/file.mp4

提示:在“Display setting”中启用“Measure Line”以获得辅助线。

使用这种方法在所有图像中标注对象。完成后点击“Save”并退出。

“Preview Annotateions”显示结果。

导出数据点击“Export”以创建导出任务。

在“Annotation Format”下,选择YOLO的TXT格式。点击“Create”。

准备好后下载结果。

每个文件都包含训练所需的信息。在这里,系统自动将“0”分配给单个标签。

项目结构像YOLO v7一样组织项目,因为其结构与v9非常相似。

为什么选择BasicAI Cloud进行YOLO数据标注?

BasicAI Cloud是一个全面的智能数据标注解决方案,它与你的YOLO工作流程无缝集成,使标注过程高效且协作。

  • 全面功能:BasicAI Cloud支持所有数据类型,包括图像、视频、激光雷达融合、音频和文本。模型辅助工具支持自动预标注(实例标注、语义分割、语音识别)和交互式标注。
  • 为团队协作而建:可扩展的项目管理,将外部团队和模型集成到自定义工作流程中。快速批量分配标注任务。自定义实时QA快速捕捉质量问题。提供了详细的绩效报告。
  • 数据集管理:上传预标注数据进行微调。视频帧提取和连续帧分割/合并。云存储集成。
  • 成本:免费账户几乎具有全部功能——5个座位,200GB存储,10,000个免费自动标签。

它们非常适合小型研究团队,并且对于大型团队来说价格具有竞争力。提供企业级本地部署。通过利用BasicAI Cloud满足你的YOLO数据标注需求,你可以简化准备高质量标注数据的过程,与你的团队有效协作,并轻松管理你的数据集。这个强大的平台使你能够专注于开发准确高效的YOLO目标检测模型,同时最小化花在数据标注上的时间和精力。

责任编辑:赵宁宁 来源: 小白玩转Python
相关推荐

2024-09-19 16:04:41

YOLO数据标注

2022-05-16 08:45:05

数据质量数据安全

2022-07-29 13:55:03

大数据大数据管理

2021-04-09 08:21:25

数据库索引数据

2021-01-20 10:53:41

云计算云存储云迁移

2021-01-10 11:19:04

数据科学工具技术

2023-02-08 14:21:42

2022-12-15 15:34:50

数据中心云迁移

2022-02-10 10:51:35

数据库

2018-09-30 15:05:38

数据湖数据仓库Hadoop

2023-01-27 15:41:24

2022-04-18 10:20:31

数据映射工具

2022-05-30 10:20:51

数据迁移

2023-10-08 16:26:23

数据仓库

2023-01-31 15:27:13

数据治理数据管理

2021-04-21 11:12:09

CIO大数据数据驱动

2023-03-16 08:18:11

数据中心

2023-10-30 15:35:05

数据安全数据驱动

2023-05-16 15:27:31

2022-10-27 16:25:17

数据中心网络优化
点赞
收藏

51CTO技术栈公众号