人工智能的 PS 视频已经达到以假乱真的地步,自从去年 Reddit 上出现脸部被移花接木成米歇尔·奥巴马的色情视频,利用虚假名人头像的“深度仿冒(deepfake)”视频源源不断出现在互联网上。
也有大量免费的假视频软件出现,图像模型的训练过程依托 Google 开源项目 Tensor Flow,造假成本不高。来自匿名开发者的 FakeApp 被放上 Reddit 供人免费下载,两个月就有 12 万下载量。
软件工具起初并无恶意,一名开发者在接受《纽约时报》采访时说 FakeApp 的初衷是作为一种创意实验,但这不阻碍假视频被广泛滥用,继而引发假新闻、骚乱和犯罪上方面的争议,《大西洋月刊》的文章说,假视频正在摧毁我们对现实的认知。
有些造假视频看起来毫无破绽,不过依然有漏网之鱼,纽约奥尔巴尼大学的一支团队发现了漏洞,并将其用作判别视频的方法——假视频中的角色往往无法完美展现真实人类生理动作,比如呼吸、脉搏或眼部动作。
研究团队发布了篇论文,提到的最新进展是眨眼识别。成年人每分钟平均有 17 次眨眼,或者说每一秒眨眼 0.283 次。讲话的时候,人类眨眼频率增加到每分钟 26 次,阅读时是每分钟 4.5 次。
假视频通过图像训练算法,而用于训练模型的图像大多是来自网上的公开图片,比如造假一份奥巴马的视频,首先要找到奥巴马的脸部图片。但你很难找到他闭眼但图片,这会造成视频里的假脸缺乏眨眼动作,起码是不自然的眨眼。
“说到在网上 PO 照片,人们仅仅会放上‘好看的’那些,通常意味着是睁开眼睛的照片,所以 AI 算法往往很少看到闭眼的图像。”项目的负责人 Siwei Lyu 说。
具体来说,Lyu 的团队训练算法自动识别和标记眨眼动作。这个过程包括,分析和判断之前算法首先检测出视频中的面部,然后将此后视频中所有的图像连续对齐,分析每个图像中眼睛的区域,判断这里是否有眨眼动作,把这些图像标记出来。
也就是说这套算法会自动识别出视频中的眨眼部分,判断视频中的主体是否眨眼了,眨眼的模式是什么,以此辨别视频的真假。根据论文的说法,他们的模型能有效地判断眼睛状态,识别假视频的准确率达到 99%。
不过 Lyu 的方法也有局限,制作精良的假视频中确实包含有眨眼动作,做到完全模拟出人的眨眼方式并非不可实现,多花点功夫一帧帧调整就可以了。
Lyu 说他们的技术形成了“第一道防线”,起码可以拖慢造假者的进度。他们也在解决更复杂的问题,包括眨眼的频率和持续时间。
也有其他人在研究反制假视频的方式,美国加州一家名为 Truepic 的初创公司也在投资离线图像和视频分析技术,同样通过一些细节来检测深度仿冒,比如头发、耳朵、眼睛的反射率等。
Adobe 也通过他们对 PS 图片的经验,训练模型识别图像中经过处理的痕迹,一篇论文中展示了他们怎么利用机器学习识别虚假照片。