【51CTO.com快译】有时识别软件很擅长正确地分类某些类型的图像,但无法正确地分类其他类型的图像。一些图像识别引擎偏爱猫而不是狗,一些图像识别引擎拥有颜色方面的专长,因而描述性强。但总体上哪家最好?
Perficient Digital的图像识别准确度研究分析了机器学习热门的领域之一:图像识别。它研究了亚马逊AWS Rekognition、谷歌Vision、IBM Watson和微软Azure Computer Vision来比较图像。
三个用户针对四个类别:图表、风景、人物和产品,手工标记了2000个图像以进行比较。
研究团队使用两个不同的指标来评估每个引擎:准确度评估(500个图像),这个指标衡量图像识别引擎提供的每个标签的准确度;以及匹配人类描述(2000个图像),以确定图像识别引擎提供的标签与人类描述每个图像的方法相比如何。
在准确度评估这个部分的500个图像中,来自图像识别引擎的每个标签基于它是否准确加以评估:“是”、“不”或“我不确定”。只有1.2%的标签被标记为“不确定”。
即使含有人类不太可能用于描述图像的标签,标签也会被标记为准确。
就纯粹的准确度而言,四个引擎中的三个:亚马逊、谷歌Vision和微软Azure Computer Vision的得分高于人类标记,标签置信度超过90%。
在这次分析中,谷歌在所有类别中明显更胜一筹,亚马逊AWS Rekogniton位居第二。至于准确度,引擎标签的置信度为90%或更高时,四个引擎中的三个得分高于人类标签。
图1
该研究还分析了引擎生成的描述与用户描述图像的方式的匹配程度。遗憾的是,这方面的表现不是很好。
对每个引擎进行语言分析,看看有没有哪个识别引擎存在偏向性。亚马逊对产品有明显的偏向,这不足为奇。
人工手动标记的图像得分远高于任何引擎。准确的标签与人类用来描述图像的标签之间存在明显的差异。
图2
值得关注的是,IBM Watson偏爱颜色,与其他引擎相比,它给出的颜色描述最多,使用钢青色、蓝色、铁青色和紫蓝色等词语。微软Azure Computer Vision可以描述图像质量,比如模糊和模糊的。
IBM Watson喜欢高度描述性的单词,比如U形(河流)、阿拉伯式花饰(装饰)和铁头登山杖(登山装备)。亚马逊AWS Rekognition偏爱服装,比其他API更能识别短裤、裤子和衬衫。
谷歌Vision偏爱猫品种,IBM Watson比其他引擎识别更多的狗品种。
试一试Smart Images AI Evaluator(https://smartimages.perficientdigital.com/index.html),并上传你的一些图像,看看你的情况怎样。该工具由Perficient Digital开发,用于比较Adobe、谷歌、IBM和微软的图像识别引擎如何标记该图像。你可能会惊讶于结果有多好。
原文标题:Which company does the best job at image recognition? Microsoft, Amazon, Google, or IBM?,作者:Eileen Brown
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】