中国研发首个神经网络处理器-神经网络处理器

近日，中科院计算技术研究所发布全球首个“神经网络”处理器科研成果。由陈云霁、陈天石课题组提出的深度学习处理器指令集DianNaoYu被计算机体系结构领域顶级国际会议ISCA2016所接收，其评分排名总共近300篇投稿的第一名。

该成果的模拟实验表明，采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。这项成果今年年内将正式投入产业化，未来将实现刷脸支付、手机图片搜索等应用。

这项成果因最近AlphaGo对决李世石的热点而受到人们的关注。但据界面新闻记者了解，寒武纪处理器是长期技术积累的成果。早在2014年5月刊发的《中国计算机学会通讯》上陈天石和陈云霁就曾提到相关的内容。

“从2008年到现在，我们已经在体系结构和人工智能的交叉研究方向上工作了六年。作为国际上为数不多的几个长期开展此方向研究的团队之一，我们在不被认可中坚持了下来，并尝试通过自己的努力来改善这个领域的环境(当然近年来环境的改善也得益于深度学习的兴起)，最终得到了学术界一定程度的肯定。”文章中说道。

截至目前，陈天石博士和陈云霁研究员就光寒武纪系列的技术成果，已经在计算机体系结构方面国际四大顶级会议中斩获两篇ASPLOS，两篇ISCA，一篇MICRO，一篇HPCA，引起科研圈子极大的关注。

据了解，DianNao是寒武纪系列的第一个原型处理器结构，包含一个处理器核，主频为0.98GHz，峰值性能达每秒4520亿次神经网络基本运算，65nm工艺下功耗为0.485W，面积3.02mm2。

在若干代表性神经网络上的实验结果表明，DianNao的平均性能超过主流CPU核的100倍，但是面积和功耗仅为1/10，效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当，但面积和功耗仅为主流GPGPU百分之一量级。

DaDianNao则在DianNao的基础上进一步扩大了处理器的规模，包含16个处理器核和更大的片上存储，并支持多处理器芯片间直接高速互连，避免了高昂的内存访问开销。

深度学习方法促进了人工神经网络的发展，它在传统的人工神经网络训练中增加了一个预训练阶段，即用无监督学习对每一层网络进行一次专门的训练，然后才用有监督学习对整个网络进行总体训练。

通过深度学习方法，人工神经网络的效果一举赶上甚至显著超过了支持向量机等其他机器学习方法。目前，包括IBM、谷歌、微软、科大讯飞、百度等公司均将该技术应用在工业级图像和语音处理上，并取得了很好的效果。

因此人工神经网络也已经成为最有效的认知任务处理算法之一，未来随着人工智能的健康发展，如DaDianNao这样的专门的神经网络处理器也将跟随产业不断成长。

此外，由于日常生活显然需要进行大量的认知活动，计算机体系结构研究者的目光也将从传统的科学计算转到认知任务上。很多大公司已经认识到这一点。Intel和IBM等传统硬件厂商都已经成立了专门的部门进行认知任务处理的研究。在认知任务已经成了当前计算机最主要的任务之一的情况下，用户和市场会有加速人工神经网络的需求。

据陈天石介绍，目前课题组团队已开始着手进行科研成果的产业化，未来应用瞄准企业、科研院所等高性能服务器、高效能终端芯片、机器人芯片三大领域。比如实现拍照即可获取画面中人物或物体的信息，对众多视频按类别或喜好进行智能归类，实现刷脸支付等等。陈天石说，未来的服务既包括民生，也包括国家重大需求。

当然，未来寒武纪产业化成果是否顺利，还需要时间来验证。