不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像-洛桑联邦综合技术大学

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

声音在空气中作了一幅我们看不见的画，人们需要用一些手段将其显现出来。

听上去有点玄幻，能做到吗？

能！

近日，瑞士洛桑联邦理工学院波工程实验室（Laboratory of Wave Engineering，EPFL）的一个小组利用超材料结合深度学习技术的创新思路实现了这个过程。

2020 年 8 月 7 日，该研究小组题为 Far-Field Subwavelength Acoustic Imaging by Deep Learning（基于深度学习的远场声学亚波长成像）的成果发表于国际顶级物理学期刊 Physical Review X。

不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像

该小组的这一尝试要从物理学中的「衍射极限」（Diffraction limit）说起。

衍射是一个我们日常生活中都遇到过的物理现象——波遇到障碍物时会偏离原本的直线传播。而在此基础上的衍射极限则是指，受到衍射现象的限制，一个物点经光学系统成像，并不能得到理想像点。

利用一个物体的成像，人们能够对它传播或辐射的光波、声波进行一个所谓的远场（far-field）分析，以此来描绘物体本身。

为实现这一目的，较为关键的一个因素是成像的分辨率。分辨率受限于波长，波越短，分辨率越高。

也就是说，正是因为衍射极限，物体的成像质量会受影响。因此，远场观察、识别那些尺寸比光波长小得多的物体，这项任务具有挑战性。

虽然科学家们此前已经设计出了几种方法来克服这种限制，但这些方法还存在一些问题，比如：

对于任何一项科学研究而言，发现问题之后，就要提出研究课题，尝试给出解决方案了。

研究小组在论文中表示：

机器学习在不断进步，不同领域的科学家们开始尝试通过深度学习进行研究，如工程、生物、医学、量子物理等。近年来，深度学习成功的例子包括医学图像分析、语音识别、图像分类、逆成像问题以及各种复杂的分析问题。

实际上，由具有非线性模块的多个处理层组成的深度神经网络，能够通过自调整每一层的内部参数，发现、学习隐藏在复杂数据中的结构，无需人工干预。

受此启发，波工程实验室研究小组的思路是：将超材料与深度学习技术结合，把衍射极限由劣势变成优势，为无标记成像技术的新应用开辟一条新路。

雷锋网了解到，超材料即 Metamaterial，是指一类自然界中不存在的、人工制造的非活体复合材料或结构。在这一研究中，小组采用的是有损耗（小组特地进行的设计）的谐振金属。

不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像

【用于亚波长图像重建和识别的实验装置】

研究小组在亚波长输入图像（subwavelength input images）附近放置金属，并训练神经网络直接对图像进行重构和分类。其中，金属的吸收损失是有效学习的关键。

具体原理见下图：

类似数字“5”的形状是一个亚波长声源。

不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像

如 a 部分所示，放置在远场中的麦克风阵列捕获的信号不包含关于声源的亚波长细节的任何信息，换句话说，不管使用什么信号处理策略，都不可能实现成像。

如 b 部分所示，随机插入了一簇亚波长亥姆霍兹谐振器之后，关于亚波长细节的信息辐射到了远场中。

如 c 部分所示，小组将麦克风阵列采集到的远场幅值和相位输入到神经网络中。

小组使用了两种不同类型的神经网络，一是 U -net 型卷积神经网络，用于图像重建；二是多层并行 CNN，用于图像分类。

实验结果表明，在没有金属元素的情况下， U -net 型卷积神经网络难以重建图像；而多层并行 CNN 的分类性能相对较高，近场和远场分别为 67.5％和 57.5％。

不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像

而在加入 ñ=29 有损谐振器的情况下，远场分类精度从 57.5％提高到 74％，不过图像重建仍然质量较低（下图第一行）。

在加入 ñ=302 有损谐振器的情况下，不仅整体分类精度提高到了 84％，而且亚波长图像的重建也非常准确，分辨率提高到了 30 倍（下图第二行）。

不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像

在初步证明了神经网络能够从远场中记录的幅度相位分布恢复初始的亚波长图像之后，该小组又有了一个新目标：证实该网络在新数据库中快速重新学习的能力。

据了解，研究小组创建了一个包含 600 个培训样本和 200 个测试样本的新数据集，其中包含四个字母 E、 F、L 和 P，然后在这个新的、较小的数据集上重新训练 U -net 型卷积神经网络，要求神经网络对数据集中的未知字母进行分类和重构。

不可见成为可见！超材料和 AI 融合，洛桑联邦理工「破译」了声音图像

如上图所示，经过重新学习的网络实现了 ≥0.94 的图像保真度（这里指输入字母和重构字母之间的差异），说明这种方法具有高度适应性，在学习新数据类型时可以更加高效，不受输入数据多样性的限制。

论文合著者之一 Romain Fleury 强调了这一方法的独特性：

通过使用长度大约为一米的声波，生成分辨率仅为几厘米的图像，我们远远超过了衍射极限。与此同时，超材料吸收信号曾被认为是一个很大的缺点，但事实证明，与神经网络相结合时，它成了一种优势。

实际上研究小组还认为，这一方法能在声学图像分析、特征检测、对象分类中进行应用，或是在生物医学应用中作为一种新型无标记声学传感工具。正如论文合著者之一 Romain Fleury 所说：

在医学成像领域，使用长波来观察非常小的物体将会是一个重大突破。长波意味着医生可以使用更低的频率，即便面对着致密的骨组织，也能获取到有效的声学成像。