本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
DeepMind和中科院神经科学研究所联手了。
他们用无监督深度学习揭示出大脑识别人脸的机制。
具体来说,大脑会把面部特征分解成一些语义特征,如年龄、性别或是否在微笑,而且是单个神经元对应某个具体特征。
此外,他们构建的模型利用少量神经元的信号就能还原出整个面部图像,相关论文发表在最新一期Nature Communications上。
论文共同一作为DeepMind研究员Irina Higgins和中科院神经科学研究所研究员常乐。
其他参与者还包括DeepMind创始人哈撒比斯、加州理工神经科学研究院主任曹颖等。
他们的实验结果提出可以在单个神经元的尺度上去理解大脑视觉。
这一结果可以说打破了以往的认知,即认为单个神经元在很大程度上是不可解释的,有意义的信息存在于大量神经元的互动组合中。
相关领域的学者也表示会好好研究这篇文章,因为如果在看到这篇之前问他“无监督深度学习能解释大脑的什么机制吗?”,他会毫不犹豫地说“没戏”。
人工神经元与猕猴神经元有强对应
灵长类大脑有着惊人的处理视觉信息的能力,几毫秒之内就能对看到的复杂场景做出识别反应。
不过这种能力的具体运作机制一直没有研究透彻。
中科院常乐和加州理工曹颖之前都对猕猴的视觉机制做过研究,找出负责猕猴大脑负责识别面孔的是下颞叶皮层 (inferotemporal cortex)中的一部分。
这次与DeepMind的合作中,他们选用自监督的β-VAE(β变分自动编码器)来模拟大脑中负责识别面孔的模块。
在对比β-VAE模型的行为与猕猴的神经活动数据的过程中,研究人员发现真实神经元和人造神经元之间存在强烈的一一映射关系。
这下可好,虽然大脑的机制不易研究,VAE的原理可是很明白。
编码器把输入数据在隐空间中编码成各种特征,如物体的大小、颜色、位置,再由解码器进行重建。
这种能力被称为“解耦”或“解纠缠”,而β-VAE是VAE之中解耦能力较强的一种变体。
对于面部识别来说也是如此。
从年龄、性别到更具体的眼间距、眉毛粗细都会被分解成一个个特征。
β-VAE与猕猴神经元间的强对应关系,意味着生物大脑很可能也是按这种方式去感知人脸。
为了验证这一点,研究人员用猕猴神经元的测量数据去训练β-VAE,成功地进行了人脸的重建。
最后,研究团队希望来自机器学习的最新见解可以反馈给神经科学,并推广到识别人脸之外的任务,特别是抽象推理或通用任务学习。
作者介绍
本文的共同一作、通讯作者Irina Higgins是DeepMind研究员,也是β-VAE模型论文的第一作者。
共同一作常乐是中国科学院神经科学研究所的研究员,研究领域是结合功能核磁共振、电生理记录和数学建模等手段来研究不同种类的物体如何在猕猴的下颞叶皮层进行表征。
常乐曾在加州理工任博士后期间与曹颖合作。
曹颖从2017年起担任加州理工陈天桥雒芊芊脑科学研究院主任,2018年获得麦克阿瑟天才奖,2020年当选美国科学院院士。
论文地址
https://www.nature.com/articles/s41467-021-26751-5