大模型让AI诈骗成精了，10分钟骗走430万，AI防深伪如何破解？-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

AI诈骗现在有多凶猛？

这两天，一条#AI诈骗成功率接近100%#的词条直冲微博热搜。

点进去一看，原来是福建一家科技公司的法人代表在10分钟内就被骗走了430万元……

怎么骗的？

“好友”通过微信视频联系到他，说自己的朋友在外地竞标，需要430万保证金，且需要公对公账户过账，就想要借他公司的账户走一下。

基于视频聊天信任的前提下，他在收到转账截图后没有核实钱款到账就立马“转回去”430万元。

转完之后，他主动给好友发微信告知却收到了一个问号，这才恍然大悟：

中了AI的高端大计，一点都没看出来“朋友”的脸和声音都是假的。

无独有偶，就在不久之前，国外也发生了一起和AI相关的诈骗：

有团伙以“YouTube团队”之名向一些YouTube博主们发送了一封电子邮件，文中给了一个谷歌云盘链接，要大家下载PDF获悉平台一项新政策的细则（跟大伙儿都比较相关）。

一般看到这儿，警惕心强的人可能还不为所动。

但邮件中却附有堂堂谷歌CEO皮查伊“亲自现身”说明的视频，这立马就打消了不少人最后的提防之心。

他们迅速点击鼠标下好了文件，却全然不知，这个文件表面看起来是一个PDF，打开之后确实也是讲的新规则细节，实际却是一个高度伪装的病毒，可以直接获取浏览器的cookie信息、保存的密码等，非常危险。

可以看到，在这两起事件之中，深度伪造技术deepfake都在其中起到了非常关键的作用。

提起这项已诞生了6年之久的换脸大法，不少人可能都对它有些“见怪不怪”了。

但如上所见，相关诈骗案件或大或小，并没有削弱之势。

相反，如今随着AIGC技术的大爆发，普通人接触到各种先进生成工具变得不费吹灰之力，制作出越发难以识别的高质量deepfake视频也越来越容易，我们想要一眼识破出来这些造假内容就更加困难。

人脸识别在金融行业应用非常普遍，金融行业也因此最为重视防深伪攻击。

而且随着大模型驱动的AI新技术跃迁，这种潜在的威胁和危害越来越显著。

但实际上，应对deepfake其实早已有比较成熟的技术方法和方案。

源自百度的金融科技公司度小满在deepfake应对方法已经积累了丰富的经验。

今天，我们或许可以再次重温与盘点它们的破解之道，来给未来的防深伪工作指明方向。

金融领域防深伪，人脸是第一步

如度小满数据智能部总经理、度小满技术委员会执行主席杨青所说：

金融领域的AI防深伪，应该针对整个闭环、每个节点的安全性进行巩固和创新。

但第一步就是从deepfake这种技术的单点突破开始。

在金融行业，由deepfake产生的主要欺诈行为就是身份欺诈，也就是通过深度伪造的虚假图像和视频，来冒充他人身份，骗过金融信贷流程中的身份核验系统（包括活体检测）。

不法分子的欺诈方法其实也很简单，就是先通过劫持root或者缓存文件注入等形式劫持你手机的摄像头，不让它进行真实采集。

然后上传提前准备好的虚假证件信息（或经过篡改处理，或直接从黑产处购买）和通过深伪技术/AIGC技术生成的人脸样本了。

如果系统恰好没有检测出来，盗刷和恶意注册就可能随之而来，给金融机构和用户造成不易挽回的经济损失。

度小满介绍，近些年，随着deepfake技术的不断成熟，以及图像视频生成技术的流行，这种利用深伪技术绕过人脸识别流程的趋势有所增长，对金融机构一直以来使用的实名认证系统造成了一定的威胁。

数据显示，国内主要金融机构及互联网公司应用的人脸验证流程，70%以上存在被绕过的风险。

在全球范围内，也有快接近一半（46%）的企业遭受过合成身份的欺诈，有高达90%的受访企业认为这种行为已日益严重。

在应对方式上，除了直接切断不法分子对手机系统权限进行篡改的能力，就是去识别认证内容是否造假。

对于后者来说，传统的人工审核靠一些辨认技巧可以识别出部分deepfake内容，比如看面部轮廓流畅度、唇形一致性等。

但随着deepfake技术替换本领越来越高超，再怎么训练有素的眼睛也难以识别出其中破绽。

就比如下面这组，你能一眼看出来哪个是真吗？

再者，人工审核方式的效率也很低，人工费更是高昂。

所谓“解铃还须系铃人”，最好的办法还是交给AI去办。

事实上，在deepfake技术出来不久之后，各种“反deepfake”检测算法就陆续被技术大佬们研发出来了，贯彻的就是“你在前面飞，我在后面追”的思想。

大家能够感受到，在各种金融App中实际的身份验证环节中，我们只用几秒钟的时间就能完成刷脸、活体检测、登录等一系列操作，检测过程完全无感。

这是因为防深伪模型经过了海量的样本比对学习，“阅尽千帆”，哪怕只是细微到一个像素级的破绽也能迅速被它抓到。

除了实时识别和超高准确度，这种方法的价值相比人工审核，还体现在能够非常方便地进行持续优化上。

那么，下面就以度小满为例，来看看防深伪检测模型具体是如何识别的。

三大细节入手，破解造假视频

度小满防深伪攻击的算法策略主要从三个方面的破绽入手。

首先是生成瑕疵。

具体而言，由于相关训练数据的缺失，deepfake模型可能缺乏一些生理常识，导致无法正确渲染部分人类面部特征。

问题小到眨眼频率不正常、瞳孔形状不规则、牙齿有缺陷，大到口型与声音不吻合，肢体动作与演讲内容不协调……

在检测模型中，我们将这些“基本肉眼可见”的特征都提取出来，设计特定的分析算子，就可以进行分析研判。

其次是固有属性。这指的是生成工具、摄像头光感元件固有的噪声指纹。

不同摄像机拥有不同的设备指纹就不多说了，像GAN这种模型在生成人脸时也会留下独特的用于识别生成器的指纹，所以我们经过对比就能发现端倪。

不过需要注意，实际情况中，一些deepfake视频可能被压缩导致图像被强降噪，所以像该网络对固有属性的微观纹理分析就不管用了。

没关系，我们还可以追究第三个细节：高层语义。

它指的是检测面部动作单元（肌肉群）协调性、面部各区域朝向一致性、视频微观连续性（如下图右产生的细微抖动）等方面的问题，由于这些细节建模困难、难以复制，很容易抓到把柄。

毫无疑问，由于单一特征难以适应复杂的deepfake内容，因此检测模型的整体框架采用的是多特征融合，以此来保证决策的鲁棒性。

一般来说，行业各家公司在破解deepfake视频上采取的思路和以上所讲差别不大，但度小满还是在数据样本优势之外，融入了自己的独创点，包括：

神经网络搜索调优算法、微表情分析和图卷积（GCN）技术以及基于重建的自监督预训练方法，让模型实现了从“鉴伪”到“鉴真”的转变。

也正因此，去年9月，度小满防深伪检测模型顺利通过了信通院人脸识别安全专项评测，获得活体检测安全防护能力优秀级认证。

具体效果上，它可以做到覆盖各种深伪形式，包含静态人像图片活化、AI换脸、人脸虚假合成等，达到千分之一误报率下召回90%以上，也就是99%+的准确率。

像咱们开头所提的谷歌CEO皮查伊伪造视频，之前微博上红极一时的“马一龙”，度小满都能轻松识破：

值得注意的是，杨青表示，在模型的实际测试中，其实还是遇到一些出其不意的攻击手段，比如经过对抗攻击干扰的高糊视频、3D头模等。

对此，度小满的总体解决策略是具体问题具体分析，即：

每遇到一个新的case，就专门构去建一个单独的网络结构算法来解决，如果发现对应情况增多后，就合并到通用的主体网络结构中。

由此恰到好处地解决了各种问题。

AIGC技术爆发带来的新挑战

我们观察到，就在最近几个月，网上又涌现出了一大批号称免费、甚至能在一秒、三次点击以内就实现任意换脸的新deepfake工具，不限于图片、视频甚至是直播场景，效果也实在令人称赞。

这也意味着，普通人乃至不法分子接触到这种技术的方式越来越简单了。

随着诸如此类“亦正亦邪”的更多工具上线，可以想象，金融乃至其他行业以后要应对的伪造攻击，将会有多么多种多样。

值得注意的是，这类新造假内容其实给防深伪技术也带来了全新的挑战。

因为它们持有的是一些完全不同的新特征，目前已完备的“打假”方法其实是有些力不从心。

那么，我们应该怎么办？

对此，度小满从细处着手，给出了一些自己的观点：

未来更多的鉴伪技术应该集中去挖掘语义特征、跨模态特征等，让模型利用可解释性强的高层语义去鉴伪。

应对AIGC技术冲击下的深伪造假问题，你还有什么好想法？