很多网站服务会要求用户从一堆图片中选择特定物体,以此来验证用户是否真人。这种图片识别验证码(CAPTCHA)最常见的形式是在复杂的街景照片中识别自行车、斑马线、交通灯等日常物体。然而,最近有研究指出,一些本地运行的AI机器人使用特别训练的图像识别模型,已经做到100%的成功率,达到甚至超过了人类水平!
验证码杀手:YOLO模型
ETH苏黎世的博士生安德烈亚斯·普莱斯纳(Andreas Plesner)及其同事的最新研究聚焦于谷歌的reCAPTCHA v2,这一系统要求用户在图片网格中识别出包含诸如自行车、斑马线或交通灯等物体的街景图像。尽管谷歌几年前已经开始逐步淘汰该系统,转而采用“隐形”的reCAPTCHA v3以分析用户行为,但reCAPTCHA v2仍被全球数百万网站广泛使用,尤其在v3系统对用户的“人类”可信度打分过低时,常作为备用验证手段。
研究团队为了破解reCAPTCHA v2,使用了开源的YOLO(You Only Look Once)目标识别模型,这一模型因其实时检测物体的能力而备受青睐,甚至早在电子游戏作弊机器人中就得到了应用。研究者将这一模型进行了微调,使用了1.4万张标记过的交通图像进行训练,最后得到了一个能够对验证码网格图像进行精准识别的系统。
为了规避谷歌对机器人行为的检测,研究团队采取了多种措施,比如使用VPN来避免因IP地址重复尝试而被发现,同时还设计了一个特殊的鼠标移动模型,以模拟人类用户的活动。另外,自动化代理也利用了真实浏览器和浏览历史中的cookie信息,使其表现得更加“人性化”。
验证码全面沦陷
研究显示,根据不同的物体类别,YOLO模型对验证码的识别准确率从69%(摩托车)到100%(消防栓)不等。综合这些措施,机器人成功地一次次突破了验证码防线,有时候甚至比人类挑战的次数更少。尽管这种提升对比人类并无显著统计学意义,但也足以证明这项技术的有效性。
过去,学术界曾多次尝试利用图像识别模型来破解reCAPTCHA,但成功率大多在68%到71%之间浮动。而此次AI识别验证码的成功率首次达到100%,标志着我们正式进入了“后验证码时代”。
然而,这并不是验证码的首次“沦陷”。早在2008年,研究人员就展示了如何训练机器人突破专为视觉障碍用户设计的音频验证码;到了2017年,神经网络也已经能够破解那些要求用户输入乱码字体中字母的文本验证码。
如今,随着本地运行的AI也能轻松破解基于图像的验证码,人类身份识别的技术将继续转向更微妙的设备指纹识别方法。谷歌云的一位发言人向《新科学家》表示:“我们非常专注于帮助客户保护用户,同时尽量不显示视觉挑战,这也是为什么我们在2018年推出了reCAPTCHA v3。今天,reCAPTCHA在全球700万个网站上的大部分保护机制已经完全‘隐形化’。我们正在持续提升reCAPTCHA的能力。”
人与机器的识别边界正在模糊
随着人工智能系统在越来越多的任务上逐步逼近甚至超越人类能力,确保网络另一端的用户是一个真人变得越来越难。
正如论文作者所写:“从某种意义上说,一个好的验证码可以在最智能的机器与最不智能的人类之间划分精确界限。”而随着机器学习模型逐渐接近人类能力,找到一个“好”的验证码(技术)变得越来越困难。