我们对于验证码都不陌生,reCAPTCHA 就是一种 Google 的验证码,用来区分人和机器。reCAPTCHA 就是以两个混杂的单词的形式出现,然后要求你辨认出这两个词才可以访问相应的页面。Google 在开始扫描全世界的书籍后的第 3 年发布了这个 reCAPTCHA,他们利用***的 OCR (光学字符识别)技术来完成这一壮举,然而这并不***。因为在这自动转录过程中会有许多小错误,但是如果要通过人工手段来全部浏览这些文本来找出错误,几乎是不现实的。同时,计算机编写的脚本机器人(bots)开始成为一个头疼的问题,一种能区分真实用户和机器人的手段变得非常必要。
reCAPTCHA 最初是由一位卡耐基梅隆大学(CMU)的学生开发的,随后被 Google 应用。这个想法很简单,就是一张图片上有一个常用的单词和一个未知的单词,让用户把它们誊写下来。一旦有很多用户解决了这个 reCAPTCHA,那个单词就会被收录。
这样一来,就有了大量的人来免费转录书籍和报纸内容。当然,并不是所有人都对这个满意,有些人甚至上诉状告 Google 利用他们作为免费劳动力。然而问题不止在于这里,随着 OCR 技术的不断改进,机器人对于破解 reCAPTCHA 也有了 99% 的准确率。所以 Google 将它更新迭代了,如今我们有了新的 noCAPTCHA reCAPCTHA,它会要求用户从 9 张图片中识别出指定的图像内容。
起初,这些图像是一些门牌号码,可能是为了帮助 Google 地图在街景地图中找到地址。然而最近大部分图片变成了路标,这让我们可以有足够的理由相信我们正在教会未来的司机们(自动驾驶模型)如何去识别路标,如何在路上正确地驾驶。谁知道接下去验证码还会变成什么?或许,会让我们去识别路面上潜在的危险?