计算机视觉技术即将迎来重大转变-计算机视觉的技术

计算机视觉是否会再次自我改造？

匹兹堡大学眼科教授、CMU 机器人研究所兼职教授 Ryad Benosman 认为确实如此。作为基于事件的视觉技术的创始人之一，Benosman 预计神经形态视觉——基于基于事件的相机的计算机视觉——将成为计算机视觉的下一个方向。

“计算机视觉已经被重新发明了很多很多次，” Benosman 说。“我已经看到它至少重新发明了两次。”

Benosman 提到了 1990 年代从带有一点摄影测量的图像处理到基于几何的方法的转变，然后是今天机器学习的快速发展。尽管发生了这些变化，现代计算机视觉技术仍然主要基于图像传感器——产生类似于人眼所见图像的相机。

根据 Benosman 的说法，在图像传感范式不再有用之前，它会阻碍替代技术的创新。高性能处理器（例如 GPU）的发展推迟了寻找替代解决方案的需要，因此延长了这种影响。

“我们为什么将图像用于计算机视觉？这是一个价值百万美元的问题，”他说。“我们没有理由使用图像——这只是因为历史的动力。甚至在没有相机之前，图像就有动力。”

图像相机

自从公元前五世纪针孔相机出现以来，图像相机就一直存在到 1500 年代，艺术家们使用房间大小的设备将房间外的人或风景的图像追踪到画布上。多年来，这些画被替换为胶片来记录图像。数码摄影等创新最终使图像相机很容易成为现代计算机视觉技术的基础。

然而，Benosman 认为，基于图像相机的计算机视觉技术效率极低。他的比喻是中世纪城堡的防御系统：位于城墙周围的卫兵四处寻找接近的敌人。鼓手稳定地敲打，每一个鼓点，每个守卫都会大声喊出他们所看到的。在一片喧哗中，听到一个守卫在遥远的森林边缘发现敌人是多么容易？

21 世纪的鼓点硬件等价物是电子时钟信号，而守卫是像素。大量数据被创建并且必须在每个时钟周期进行检查，这会导致大量冗余信息，从而需要大量不必要的计算。

“人们正在燃烧如此多的能量，它占用了城堡的整个计算能力来保护自己，” Benosman 说。如果发现了一个有趣的事件——在这个类比中以敌人为代表——“你必须四处走动收集无用的信息，人们到处尖叫，所以带宽很大……现在想象你有一座复杂的城堡。所有这些人都必须被听到。”

进入神经形态视觉。基本思想受到生物系统工作方式的启发，即检测场景动态的变化，而不是连续分析整个场景。在我们的城堡类比中，这意味着让守卫保持安静，直到他们看到感兴趣的东西，然后喊出他们的位置以发出警报。在电子版中，这意味着让单个像素确定他们是否看到相关的东西。

“像素可以自行决定他们应该发送什么信息，” Benosman 说。

“他们可以寻找有意义的信息——特征，而不是获取系统信息。这就是与众不同的地方。”

计算机视觉技术即将迎来重大转变

Prophesee 与索尼合作开发的 DVS 传感器评估套件。Benosman 是 Prophesee 的联合创始人。

与固定频率的系统采集相比，这种基于事件的方法可以节省大量功率并减少延迟。

“你想要一些更具适应性的东西，这就是[基于事件的视觉]的相对变化给你的东西——适应性采集频率，”他说。“当你观察幅度变化时，如果某些东西移动得非常快，我们就会得到很多样本。如果某些东西没有改变，你会得到几乎为零，所以你正在根据场景的动态调整你的采集频率。这就是它带来的东西。这就是为什么它是一个好的设计。”

Benosman 于 2000 年进入神经形态视觉领域，他坚信先进的计算机视觉永远无法发挥作用，因为图像不是正确的方法。

“最大的转变是说我们可以在没有灰度和没有图像的情况下进行视觉，这在 2000 年底是异端——完全是异端，”他说。

Benosman 提出的技术——今天基于事件的传感的基础——是如此不同，以至于提交给当时最重要的 IEEE 计算机视觉期刊的论文在未经审查的情况下被拒绝。事实上，直到 2008 年动态视觉传感器 (DVS) 的开发，该技术才开始获得动力。

神经科学灵感

神经形态技术是受生物系统启发的技术，包括终极计算机：大脑及其神经元，或计算元素。问题是没有人完全理解神经元是如何工作的。虽然我们知道神经元对传入的称为尖峰的电信号起作用，但直到最近，研究人员仍将神经元描述为相当草率，认为只有尖峰的数量很重要。这个假设持续了几十年，但最近的工作证明，这些尖峰的时间是绝对关键的，并且大脑的结构会在这些尖峰中产生延迟来编码信息。

今天的尖峰神经网络模拟大脑中看到的尖峰信号，是真实事物的简化版本——通常是尖峰的二进制表示。“我收到一个 1，我醒来，我计算，我睡觉，”Benosman 解释说。现实要复杂得多。当尖峰到来时，神经元开始随着时间的推移对尖峰的值进行积分；神经元也有泄漏，这意味着结果是动态的。此外，大约有 50 种不同类型的神经元具有 50 种不同的集成配置文件。

当前的电子版本缺少集成的动态路径、神经元之间的连接性以及不同的权重和延迟。“问题在于，要制造出有效的产品，你不能[模仿]所有的复杂性，因为我们不理解它，”他说。“如果我们有好的大脑理论，我们就会解决它。问题是，我们只是不知道。”

Bensoman 经营着一个独特的实验室，致力于了解皮层计算背后的数学原理，旨在创建新的数学模型并将其复制为硅设备。这包括直接监测来自真实视网膜的尖峰。

目前， Bensoman反对忠实地复制生物神经元，称这种方法是过时的。

“在硅中复制神经元的想法的产生是因为人们观察了晶体管并看到了一个看起来像真正神经元的机制，所以一开始它背后有一些想法，”他说。“我们没有细胞；我们有硅。你需要适应你的计算基板，而不是相反……如果我知道我在计算什么并且我有芯片，我可以优化这个方程式并以最低的成本、最低的功耗、最低的延迟运行它。”

处理能力

无需精确复制神经元这一认识以及 DVS 相机的发展是当今视觉系统背后的驱动力。虽然系统已经上市，但在完全类似于人类的视觉可用于商业用途之前，还需要取得进展。

Benosman 说，最初的 DVS 相机具有“大而粗的像素”，因为光电二极管本身周围的组件大大降低了填充因子。虽然对开发这些摄像机的投资加速了这项技术，但贝诺斯曼明确表示，今天的事件摄像机只是对早在 2000 年开发的原始研究设备的改进。索尼最先进的 DVS 摄像机，三星和 Omnivision 拥有微小的像素，融合了 3D 堆叠等先进技术并降低了噪点。Benosman 担心的是今天使用的传感器类型能否成功扩大规模。

“问题是，一旦你增加像素数量，你就会得到大量数据，因为你的速度仍然非常快，”他说。“你可能仍然可以实时处理它，但是你会从太多的像素中得到太多的相对变化。这现在正在杀死所有人，因为他们看到了潜力，但他们没有合适的处理器来支持它。”

计算机视觉技术即将迎来重大转变

这个 Prophesee 客户应用示例显示了图像摄像头（每个框的左上角）和 DVS 传感器输出之间的差异。

通用神经形态处理器落后于 DVS 相机对应物。一些业内最大的参与者（IBM Truenorth、英特尔 Loihi）的努力仍在进行中。Benosman 表示，正确的处理器和正确的传感器将是无与伦比的组合。

“[今天的 DVS] 传感器速度极快，带宽超低，动态范围大，因此您可以在室内和室外看到，”Benosman 说。“这是未来。它会起飞吗？绝对地。”

“谁能把处理器放在那里并提供完整的堆栈，谁就赢了，因为它将是无与伦比的，”他补充道。