让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

新闻 人工智能
Facebook AI开源了用于数据增强的新Python库——AugLy。

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

只要稍微动点手脚,就会给AI模型的鲁棒性带来挑战。

在AI眼里,下面这两张图片可能毫无关联。

现在,Facebook AI开源了用于数据增强的新Python库——AugLy

[[409845]]

它支持音频、图像、视频和文本4种模态,提供了超过100种数据增强功能,可以对输入内容进行多种处理。

比如,改变文字的大小写、字体、编码方式,给文本添加标点、调整字母位置、模拟错别字。

[[409846]]
让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式
让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

这一项目已经获得1.8k颗星,并且登上了GitHub热榜。

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

让AI识别「截屏转发」

AugLy的目的是涵盖现实网络中具体的数据增强,用来创建样本,从而训练和测试模型。

根据Facebook和Instagram等平台上的生活图像和视频,AugLy在统一的库和API下转换项目的所有数据,提供了超过100种数据增强方式。

其中包括4个子库,分别对应音频、图像、视频和文本4种模态。

这些子库包括基于函数和类的变换、组合,并且可以选择所应用的元数据及其强度

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

图片处理为例,AugLy可以对图片进行裁剪、旋转、添加噪声、模糊处理、灰度处理等。

就像这样:

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

有网友提出疑问:文本模块只支持英语吗?

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

除了包含许多通用的增强功能,AugLy更大的特点在于——提供“互联网用户”类型的数据增强方式。

比如,把图片转换成屏幕截图的样式,更加符合生活中常见的样子。

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

使用AugLy数据增强训练AI模型,这些内容相同而形式不同的信息,能帮助模型提高鲁棒性。

复制检测言论检测版权侵权等工作中,训练后AI可以对用户上传的内容,进行更精确的识别。

此外,AugLy已经被用于Deepfake检测挑战赛,用来评估模型的鲁棒性。

网友热议

这个新的Python库也受到了网友们的关注,在Reddit上获得了350+赞。

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

有网友提出疑问:文本模块只支持英语吗?

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

一位热心网友表示:

看起来文本模块在很大程度上是对nlpaug的一种包装,因此AugLy支持其他语言,只需修改几个参数。

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

也有网友提出,为什么不直接把它加到pytorch里?

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

对此,有人回复道:

这样在安装的时候会很慢,有需要的的人单独安装就可以了,没必要让pytorch那么臃肿。

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式

AugLy要求Python 3.6以上版本,通过pip安装,但是在虚拟环境和系统环境中,还需要用conda和sudo apt-get命令单独安装python-magic。

比较遗憾的是,AugLy目前不支持输入批量图像,不过开发人员表示,以后将会完善这一功能。

让AI精准识别盗版,脸书开源数据增强库:提供100多种增强方式
 

 

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2021-06-21 15:32:40

Facebook 数据开源

2009-07-19 14:09:35

微软操作系统Windows 7系统增强包

2023-08-11 10:58:04

深度学习自然语言检索增强

2021-11-03 10:49:33

人脸识别人工智能技术

2023-05-25 16:24:13

2021-12-15 10:54:42

数据增强机器学习数据

2024-07-04 09:00:00

2024-10-08 15:42:45

2024-06-06 08:42:01

2023-08-29 14:28:13

生物识别数据中心

2023-10-07 11:36:15

2024-05-28 08:31:36

2018-01-24 11:44:12

脸书FacebookAR技术

2009-04-01 09:13:30

LINQSLINQC#

2015-07-29 11:14:20

r语言数据科学

2024-01-25 12:54:47

2021-09-13 11:34:44

Windows微软工具

2023-10-18 11:12:01

增强现实VR

2019-06-09 08:17:07

2012-06-15 09:43:20

苹果App Store盗版书
点赞
收藏

51CTO技术栈公众号