美军AI黑科技：黑暗中也能准确识别人脸，谁该为此感到紧张？-ai识别人脸

[[227002]]

今天我们要聊的，是一件让人第一反应很惊讶：“竟然还有这种操作？”，但细细想来，又极为惊恐的事情。

这件事，就是美国军方最近搞出来的一个大新闻。据《The Register》专栏记者凯蒂安娜·库奇 4 月 17 日的一篇文章，美国陆军研究实验室正在研究一项技术，通过 AI 的深度学习技术加持，可以实现在黑暗中准确识别人脸。

想在夜里获得视野并不是什么难事，如今红外技术的发展已经非常成熟。拍摄野生动物、24 小时监控等等都会用到这类技术。再加上热成像，在夜里能够判断前面站着的是个人而不是一块石头，已经不是什么问题。

但要在没有打光的情况下实现人脸识别的精度，这确实有点惊为天人。那么，美国军方究竟是准备怎么做的？

AI+ 热成像：不仅看到你，还能看清你

首先我们需要知道的是，热成像是通过非接触探测红外能量，将其转换为电信号，进而在显示器上生成图像和温度值的一种技术。热成像装置在军事用途中非常常见。比如 Apache 直升机等飞机和装甲运兵车等地面交通工具，都是配备了热成像相机。这能够保证其在低能见度的情况下也能探测到人员，比如大雾、夜晚。

这里存在着一个问题，热成像装置虽然相当于给在夜里活动的士兵们装了一双眼睛，但这双眼睛其实是双“近视眼”。它能够显现出对面出现的障碍物的基本轮廓，让士兵们能够判断眼前是人还是石头。但是，也就仅限于此。眼前的人是敌还是友，目前还是没辙。

基于此，美国陆军研究实验室开发出了一套基于深度学习的 AI 识别系统。通过卷积神经网络的处理，热图像中人的眼睛、鼻子、嘴唇等的边界被标记出来，从而可以确定出人脸的整体形状。接下来，非线性回归模型将这些特征映射到相应的面孔样貌中。这种被称为“多区域合成”的系统通过损失函数进行训练，热图像和可见图像之间的误差会被最小化，从而可以构建出一个相对准确的人脸图像。

技术深入解读

陆军研究实验室（Army Research Laboratory，ARL）的科学家 Benjamin S. Riggan，Nathaniel J. Short 和 Shuowen Hu 在最近发表的论文《Thermal to Visible Synthesis of Face Images using Multiple Regions》中详细地介绍了军方是如何开发在热成像图像中应用人脸识别技术的方法。

技术解读部分由 AI 前线基于论文原文进行编译。

从热图像中合成可见光图像是异质人脸识别中十分有前景的一项方法，可以利用已有的在可见光人脸数据库上训练的面部识别软件，并且更有效地进行跨光谱匹配。论文提出了一个利用全局（面部整体）和局部区域（五官）来增强判别性的可见光人脸图像合成方法。

图 1（a）热红外图像与可见光图像的跨模态匹配任务一直是异质人脸识别的一项重要挑战。而（b）（从热红外图像中）合成的可见光图像与可见光图像则可能够进行更有效的跨光谱匹配和判断。

跨光谱识别主要有两类方法：（1）直接跨光谱识别，（2）跨光谱合成识别。在这篇论文中，作者提出了一个跨光谱合成方法，增强了面部细节，通过联合优化不同面部区域的目标函数，使不同区域间的表示可以互补。这一多区域目标函数利用了全局和局部信息来合成能够保持整体面部结构和局部人脸细节的可见光图像，从而提高跨光谱识别率。

使用多区域进行跨光谱识别

图 2 算法框架图

对于给定热图像，首先使用全卷积神经网络 g(x) 在全局区域（红色）和局部基准区域（蓝色，黄色和绿色）提取特征。然后使用特定区域的跨光谱映射从提取的热图像特征中估测对应的可见光图像表示。最后，通过反向传播每个区域提取特征和估测特征之间的误差，对全局和局部区域进行梯度更新，然后合成可见光图像。

论文主要考虑的是由于预训练的兴趣区域（ROI）导致的多重损失和正则化函数的影响。尽管 ROI 是任意的，论文考虑了对应局部判别特征（眼睛、鼻子和嘴巴）以及一个整体的区域的特征。

对于每个兴趣区域，我们最小化以下目标函数：

其中

L 代表损失函数，R 是 alpha 范数和整体的变量惩罚项，g 代表了从输入图像到表示特征的映射，hi 代表对应区域 i 的跨光谱映射函数。在实现中，g 为全卷积神经网络，所以输入图像的尺寸不需要定义，hi 由 1x1 的卷积层组成。

合成的图像通过求解如下优化问题得到：

其中:

权重 w 平衡了全局结构和局部细节，wi 对应第 i 个区域。

实验结果

合成方法对比

合成图像与真实图像（顶部）的对比：热图像 - 可见光合成效果（中间），极化图像 - 可见光合成效果（底部）。

关键点检测对比：真实图像（顶部），热图像 - 可见光合成效果（中间），极化图像 - 可见光合成效果（底部）。

识别效果对比如下表：

可以看到，目前基于热成像技术多区域合成的模型精度和常规成像精度都超过了 80%。

想要深入了解相关技术细节，可查看论文原文：

https://arxiv.org/pdf/1803.07599.pdf

人脸识别数据库才是关键！

但如何认识这张脸？毕竟仅仅得出一个人脸的图像是没有多大用处的，这项技术的最主要目的是判断对面的人是谁。这就需要有一个数据库用来对即时生成的人脸进行比对。

论文作者 Riggan 也强调说：

当使用热成像照相机拍摄面部图像时，主要的挑战在于捕获的热图像必须与目标人物的常规可见图像的监视图像库相匹配。

为了有效，需要将构建出来的图像与数据库中的已知面部进行匹配，如监狱罪犯、恐怖分子等，才能识别出目标。也就是说，使用这套系统拍摄出的面部图像，必须要与数据库中的图像进行匹配。如果能早点应用，类似波士顿恐袭事件中对犯罪分子的抓捕，也许就不会那么大费周折。这样说来，目前来说这套系统的最大优势可以是抓在逃犯。

[[227011]]

听起来这项技术的可应用前景还是很广阔的。但还没等美国军方高兴起来，有人就过来泼冷水了。

三月份在内华达州举行的 IEE 动机计算机视觉应用会议上，有研究者就认为，虽然热成像技术多区域合成模型精度和常规成像精度都超过了 80%，看起来结果有一定的希望，但是由于热成像精度的变化，该技术的人脸合成精度也会发生变化。因此，将这些算法和当前的热成像技术的完美结合仍然是有不同程度的困难。

有意思的是，国内的一些媒体在进行相关报道的时候，夸大其词地转译了其具有“穿墙透视”的功能。我们需要知道的是，目前热成像仪还无法突破墙体去探测人体发出的辐射，因此“穿墙”一说，噱头的成分更大一点。

对于刚刚取得初步进展的这项技术而言，这样的批评之言应该算是一种鞭策或者方向。但是现在问题又出来了。即便这项技术成熟了，但是数据库里没有那么多人脸来匹配，一切不都白瞎了？

目前来看，该算法在于现有数据库进行结合的情况下，可以暂时解决一部分的问题。但是如果想要实现更精准而广泛的应用，仍然有赖于人脸识别数据库的扩建。比如一个名为 Terrogence 的商业机构就声称自己拥有一个包含数以千计的恐怖分子面孔数据库。而这个数据库的客户，就包括国安局、美国海军情报机构和政府机构。

可以想见，未来这项技术在追捕在逃犯、打击恐怖分子、夜间作战方面还是有很大的用武之地的。

No entry：停在边界线上

上面我们说到了惊讶，接下来，我们就要说惊恐了。

核武器的最大作用在于震慑，但当其巨大的摧毁力被用来杀人的时候，爱因斯坦都为此而感到后悔。这也就说明，任何一项技术，包括我们今天所介绍的 AI+ 热成像极大的降低了人脸识别的适用门槛，无论其初衷如何，如果会存在对公众产生伤害的可能（尤其当这项技术被军方掌握时），那就必须要有人来监管。

[[227012]]

试想一下，你和朋友在夜里漫步街头，享受着一天的疲倦之后的片刻轻松，而路口的红外摄像头则正在默不作声地将你们两个的头像进行扫描分析，同时比对着不知何时被搜集的数据库中的你的头像，然后作出判断：安全人员。

虽然它不会影响你的正常的生活，但会给人一种深深的担忧：我们的生活时时刻刻处在无数双眼睛的监控之下。也许我们并未感受到受到了某种伤害。但是这很可能意味着在这个城市里，我们已经失去了未被授权的隐私。在这个个人隐私可以作为商品交换巨额利润的时代，每个人都并不希望自己浑然不觉地成为商品。也正是因为如此，对 Facebook 泄露用户的数据，人们才会感到如此的愤怒。

所以，不管美国军方的这项技术的初衷如何，我们都希望其目的只是用来对付社会的阴暗分子，民众也必然希望对这项技术有严格的监管。同时，对政府和军方的使用要进行限制，并确保技术不会外流，以免被别有用心的人利用。毕竟，每个人都应对自己的隐私享有自主的权力，而不能成为暴露在镜头下的楚门。