像Git一样用AI数据!免费托管工具上线,用「活」数据集训练

新闻 人工智能
国外,一位名叫Simon Lousky的程序员小哥终于不能忍了,开发出了一套用于机器学习的数据版本控制工具 (Data Version Control,DVC)。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

搞机器学习的人,很多都饱受数据管理的折磨。

要么是数据集老旧,需要手工修订标注。

要么是同一个数据集有很多被别人调整过的版本,无从下手。

或者,干脆没有合适数据集,需要自己建立。

[[377448]]

国外,一位名叫Simon Lousky的程序员小哥终于不能忍了,开发出了一套用于机器学习的数据版本控制工具 (Data Version Control,DVC)。

一键调用数据集、一键查看编辑历史……最重要的是,在DVC工具背后,有一个GitHub一样的数据托管社区

“盘活”数据集

Simon Lousky在学生时代做项目时,就已经感受到了机器学习数据集管理不便的痛点。

当时,他的模型需要一个植物和花朵的数据进行训练,而开源数据集无论如何也得不到合理的结果。

于是他自己花了几个小时的时间,一一修正了数据集中大量过时、不合理的标注,之后训练结果让人十分满意。

[[377449]]

除了这个项目,他之后又进行过很多数据集的修正、增补、创建工作,他把这些费时费力的工序称为“数据集的调试试错”,并且开始有意记录操作历史。

他逐渐发现,自己的项目中,数据管理总是一塌糊涂,而依靠GitHub托管的代码,却一直井井有条。

那为什么不做一个类似GitHub、专门服务数据管理的工具呢?

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

DVC就这样诞生了。

这是一个预装的工具库,实现功能包括对数据集的调用、历史操作信息的查看等等功能。

它的出现,意味着之前,研究人员在本地“死”的数据集上训练模型的方式彻底改变。

你可以将项目链接到在线托管的数据集(或任何文件),建立实时、准确的联系。数据集的任何更新变动,都能及时获知,方便项目的开展。

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

比如,现在有一个Repository A,这是一个“活”数据集,其中元数据文件,指向存储在专用服务器的真实大文件。

用户可以将数据集文件组织到目录中,并添加带有utils函数的代码文件,以此来方便调用。

此外,还有一个Repository B,这是对应机器学习项目,项目代码中,包含使用DVC导入数据集的指令。

只要创建一个数据注册表,就能建立A和B之间的联系:

  1. mkdir my-dataset && cd my-dataset 
  2. git init 
  3. dvc init 

此时,数据集目录会是这样:

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

需要查看数据集相关信息时,输入指令:

  1. dvc add annotations 
  2. dvc add images 
  3. git add . && git commit -m “Starting to manage my dataset” 

数据集的预览会保存到一个目录里,这个目录也会被DVC跟踪。

然后用户只需要把代码和数据推送到托管仓库,这样就随时随地访问它,并与其他人分享。

当然,DVC要发挥作用,自然少不了背后的DAGsHub

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

DAGsHub就是一个GitHub的数据管理版本,由三部分组成,git仓库、DVC、和机器学习流程平台mlflow。

用户可以提交自己的项目,DAGsHub会自动扫描提交,并提取有用的信息,如实验参数,数据文件和模型的链接,并将它们结合到一个简单的界面。

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

DAGsHub可以浏览和比较代码、数据、模型和实验,而且不需要下载任何东西。

此外,还能生成可视化数据管道、数据操作历史,并记录模型性能,自动且美观。

如何在机器学习项目中使用“活”数据集

要使用DAGsHub,只需要注册登录。

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

通过以下指令安装DVC:

  1. pip3 install dvc 

在DAGsHub上找到一个数据集,如何在自己的模型中使用它呢?

首先,要从托管的数据集中导入一个目录,并把它当作原始文件:

  1. mkdir -p data/raw 
  2. dvc import -o data/raw/images \ 
  3. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  4. data/images 
  5. dvc import -o data/raw/annotations \ 
  6. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  7. data/annotations 

接着,图片和注释就会下载到你自己的项目中,并保留其中历史信息的信息。

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

当你想要知道数据集的变更历史时,只需运行命令:

dvc update

就能将可视化结果返回默认目录保存:

像git一样用AI数据!免费托管工具上线,用「活」数据集训练

是不是很方便?

对了,无论是DVC,还是DAGsHub,都是开源且免费的,赶快来试试吧

传送门:

DVC教程:https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub主页:https://dagshub.com/

 

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2019-11-20 09:10:12

开源技术 数据

2013-08-22 10:17:51

Google大数据业务价值

2018-09-21 11:06:10

2013-07-26 10:15:29

云计算大数据Hadoop

2017-11-06 14:18:03

2022-02-24 13:59:59

AI智能体研究

2020-09-30 17:12:09

人工智能技术数据

2023-04-05 14:19:07

FlinkRedisNoSQL

2021-12-28 11:23:36

SQLServerExcel数据分析

2017-04-26 14:02:18

大数据数据分析Excel

2017-06-23 08:18:17

2022-08-03 08:52:35

Bytebase开源

2019-04-11 18:00:40

数据数据科学项目

2022-08-26 08:17:32

Sidekick开源

2013-12-31 09:19:23

Python调试

2022-12-21 15:56:23

代码文档工具

2023-05-23 13:59:41

RustPython程序

2013-12-17 09:02:03

Python调试

2021-02-07 10:34:21

可视化编程Numpy

2023-02-15 10:26:34

点赞
收藏

51CTO技术栈公众号