话说,你能看出这三只鹦鹉有什么不一样吗?脸盲如我,要使出玩“我们来找茬”的十级能力。
AWSL,鹦鹉鹦鹉,傻傻分不清楚。
结果,AI一顿操作猛如虎,进行了判断:左边的是桃面牡丹鹦鹉,右边的是国家保护动物费氏牡丹鹦鹉,二者区别仅在于喙的颜色以及白色眼圈。
小鸟并不孤单,猫猫狗狗和花花草草也在被“找茬”。最近,浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展,利用RAMS-Trans相关技术先后在公开数据集CUB(鸟类识别)、Standford Dogs(狗类识别)、iNaturalist(动植物识别)的识别上准确率达到91.3%、68.5%、92.4%的行业最优效果,研究成果被多媒体国际顶会ACM MM 2021 收录。
论文链接:https://arxiv.org/pdf/2107.08192.pdf
怎么“找茬”
细粒度图像识别是计算机视觉领域的一个经典问题,属于图像分类任务的细分支任务,难点主要在于类别之间的差异较细微,难以区分。举几个看起来简单实际并不简单的例子:
以上都是松鸦,搞起区别对待并不容易,最右那只松鸦因为颜色完全不同暂且可以退出比赛行列,左边两只“小朋友”就要考验AI对图片细节的把控,俗称“考眼力”了。
AI的“眼力”可不同于人类的“眼力”。
在细粒度图像识别领域,区域注意力的定位和放大是一个重要因素,基于卷积神经网络(CNN)的方法对此进行了大量探索。然而,CNN的感受野有限,且缺乏全局依赖关系的建模能力。最近视觉Transformer(ViT)在计算机视觉领域取得了非常多的研究进展。研究者认为,与CNN相比,图像序列化是一种全新的方式。
浙江大学和阿里安全的研究者起初引入ViT中的自注意力机制,提取图像中的长距离依赖关系。然而,ViT的感受野大小相对固定,对图像中的每个patch的关注程度没有产生区分,对细粒度图像识别带来了性能的局限。
也就是说,这种方法并不能让AI找准“重点”。
为了学习局部判别性的区域注意力,研究者使用注意力权重的强度来衡量对应于原始图像的patch重要性,提出了多尺度循环注意力的Transformer(RAMS-Trans),它利用Transformer的自注意力机制,以多尺度的方式循环地学习判别性区域注意力。
“我们方法的核心是动态patch建议模块(DPPM)引导区域放大,以完成多尺度图像patch块的集成。DPPM从全局图像开始,迭代放大区域注意力,以每个尺度上产生的注意力权重的强度为指标,从全局到局部生成新的patch块。”阿里安全图灵实验室算法专家炫谦介绍。
具体来说,研究者首先提取ViT每层的自注意力机制,并且进行归一化,然后采取累乘的方式对自注意力整合。
然后,研究者得到了整合后的自注意力均值分布矩阵,由于细粒度图像识别任务的关键因素在于局部注意力,往往存在于图像的局部区域,如鸟的尾部、喙和蛙类的头部等,因此研究者通过设定阈值的方式来“过滤”不需要的部位,增强对局部判别性区域的识别能力。
最后,研究者通过插值算法将选定的patch块放大到原图像的尺寸,通过共享参数的模型,重新进行训练,整体结构对应于文章所提的多尺度循环机制。
RAMS只需要ViT本身附带的注意力权重,可以很容易地进行端到端的训练。广泛的实验表明,除了高效的CNN模型外,RAMS-Trans的表现比同期进行的工作更好,分别在CUB-200-2011、Stanford Dogs、iNaturalist2017获得SOTA。
同时,研究者在三个数据集合上可视化了Focus的区域,在不同种类动植物的细粒度判别时,RAMS可以聚焦到类别的独特特征区域,从而帮助细粒度分类。
可用于内容治理和知产保护
今年5月,国家林业和草原局下发《关于妥善解决人工繁育鹦鹉有关问题的函》,要求河南省林业局对包括费氏牡丹鹦鹉在内的多种人工养殖鹦鹉进行标识管理试点,对符合条件的养殖户尽快核发管理证件,同时,对合法人工繁育来源、依法允许出售的鹦鹉,停止执行禁止交易措施,在政府规定的场所进行销售活动。原来,1月初,河南商丘近1000家养殖户因不了解费氏牡丹鹦鹉属于国家保护动物,直到外地公安部门多次来商丘调查,他们才后知后觉。“鹦鹉案”困境终于有了解法。
怎么才能避免因“不懂法”“不认识”而触碰野生动植物保护的红线?
“帮他们辨别,帮他们认识。”在淘宝、闲鱼等商品平台上,阿里安全风控的做法是,依靠通过人工智能对商家挂出商品进行初筛,再交给人工审核来精细判断处理,并对禁限售商品的搜索弹出科普引导。
一万多种受保护的动植物,每种又有繁杂的细分种类,对人来说,光记名字远远不够,必须结合实物图片和各种背景资料综合学习,比如鹦鹉里的牡丹鹦鹉(也叫爱情鸟),除了桃脸牡丹鹦鹉、虎皮鹦鹉等大部分都被纳入《华盛顿公约》附录二,个人不可随意饲养。其中的费氏牡丹鹦鹉属于保护物种,都是牡丹鹦鹉,费氏牡丹俗称“头类”,桃脸牡丹俗称“面类”。一般可以依靠眼圈和嘴的颜色进行区别,“头类”眼睛四周有一圈眼白,通常嘴偏红,而“面类”没有这些特征。
风控专家把市面上非法交易频繁的动植物作为重点研究,买百科全书,网上查阅相关科普资料,然后上专业网站和一些动物知识APP,向动物保护领域研究者请教,与算法人员一起打造算法模型。
浙江大学和阿里安全研发的细粒度图像识别技术就可用在上述场景。算法的下游是风控运营,对他们而言,在万能的橙色软件上“买(看)不到什么”是一种合法合规,也是构建健康网络环境的主动选择。当然,这个技术也可用于山寨商标的识别,区分正版与山寨商标,以及未成人年不良图片治理和恶心图治理等,如抽烟、酗酒、竖中指、赌博、密集恐惧等。
又到可怕的“我们来找茬”环节了,这也是炫谦等人给AI的一次测试,猜猜它找到正品logo了吗?
研究者介绍
胡云青:浙江大学计算机学院DMAC实验室博士在读,阿里安全图灵实验室实习生,师从浙江大学教授张寅,研究方向和感兴趣方向包括图像识别,目标检测和多模态等。在ACMMM、ACL等发表过多篇论文。
炫谦:在中国科学院大学获得硕士学位,阿里巴巴图灵实验室算法专家,主要负责图片内容安全业务,拥有多篇发明专利,并在NIPS、ACM MM、ICASSP等发表多篇论文。
张寅:浙江大学计算机科学与技术学院副教授,博士生导师,数字图书馆教育部工程研究中心副主任,中国工程科技知识中心建设总师团队成员,美国加州大学圣塔芭芭拉分校(UCSB)访问学者,浙江大学“求是青年学者”。