微软开发了一种新的图像字幕算法,在某些有限的测试中,其准确率超过了人类。该人工智能系统已被用于更新该公司为视障人士提供的助理应用程序 "Seeing AI",并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。在那里,它将被用于为图像创建alt文本等任务,这一功能对于提高无障碍性尤为重要。
这些应用包括微软自己的Seeing AI,该公司于2017年首次发布。Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家庭物品,阅读和扫描文本,描述场景,甚至识别朋友。它还可以用来描述其他应用中的图像,包括电子邮件客户端、社交媒体应用和WhatsApp等消息应用。
微软没有披露Seeing AI的用户数量,但Azure AI的企业副总裁Eric Boyd告诉The Verge,该软件是 "为盲人或低视力人士提供的领先应用之一"。Seeing AI已经连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。
微软新的图像字幕算法将显著提高Seeing AI的性能,因为它不仅能识别物体,还能更精确地描述它们之间的关系。因此,该算法可以在看一张图片时,不仅能说出图片中包含哪些物品和物体(如 "一个人、一把椅子、一个手风琴"),还能说出它们之间的互动关系(如 "一个人坐在椅子上,正在拉手风琴")。微软表示,该算法是其之前自2015年开始使用的图像字幕系统的两倍。
该算法在9月份发表的一篇预印论文中进行了描述,在一个被称为 "nocaps "的图像字幕基准测试上取得了有史以来最高的分数。这是一个业界领先的图像字幕评分板,不过它有自己的限制条件。nocaps基准测试由超过166,000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景,从运动到假日抓拍,再到美食摄影等等。