饶·寇他科里：大数据分析的前沿技术-51CTO.COM

数据观现场报道 2016年11月17日下午，第三届世界互联网大会“大数据论坛”举行，本次论坛由中国国家互联网信息办公室和浙江省人民政府指导支持，中国科学院主办，中科学院信息工程研究所承办，数据中心联盟协办。

澳大利亚科学院院士、工程院院士，墨尔本大学终身教授饶·寇他科里先生在该论坛上发表了主题为“大数据分析的前沿技术”的演讲。饶·寇他科里提到，现在计算机已经跟人眼的识别水平完全一样，未来人类还需要更多的东西。

饶·寇他科里发表主题演讲

以下为演讲全文：

饶·寇他科里：首先我来讲一下笼统的概念就是深度学习以及它的应用，什么是最先进的深度学习，那就是用最先进水平的技术可以非常稳定的来采取数据来实现人工智能来解决一些人工智能的问题。比如说进行自然语言的加工，李世石已经被谷歌的AlphaGo打败了，它就成为世界上最厉害的围棋手，这个是非常典型的深度学习的典型象征。我相信在未来的几年过程当中，我们就可以用系统来进一步的开发，我们都知道的谷歌的Alphago它是怎么样的一个神经网络呢?

这个是他们背后的逻辑，也就是说我们理解背后的逻辑以及语言的网络，最后可以用在我们的其他的成功案例过程当中。这个就是我们所使用的最典型的一个架构，这个架构看到了一些图片的处理，语言的处理、语音的处理等等，还要基于问题处理其他的东西，不光是图片、语音，我们需要有识别，我还是给大家看一些挑战，我们有什么样的挑战呢?我们叫把它叫做ILSVRC，就是说一个图片，它在大规模大范围视觉认知的时候，会遇到各种各样的挑战，比如说你看到这个图片，你去摄影它的时候需要对象识别，这个图片到底是告诉你这是一只鸟还是一只青蛙，这个地方就会有难度，所以你需要有对象的定位，所以这就涉及到对象的识别和定位，这个图片也是。到底是一个人一条狗还是一个椅子?这个就是计算机识别的基准，我们遇到大规模视觉识别的挑战。大规模视觉识别挑战，还有这样一个统计的数据，就是最难的五个图象处理，ImageNet方面的五大错误，这个错误率当然是一年比一年降低，而且降低的速度也是非常非常快。

到2014年，我们基本上已经把错误率降到很低很低的，到了2015年，现在计算机已经跟人眼所识别到的东西水平是完全一样的，这就是我们神经语言网络可以帮我们做到的水平。当然人类还需要更多的东西，比如说图象字幕的抓取，这也是我们想做的一件事情。

另外一个案例很有意思，两个图片，比如说下面一个，你给他下面一个图片，然后机器会给你一张很漂亮的图片，就是右边的这个。另外一个机器学习的案例呢，就是你给它两张，一张照片，一个花图，最后出来一个非常漂亮的图片。其他的也一样，这也是我喜欢的图片，马和面条结合出来这么有艺术感的图象。这个就是我们了解的神经语言网络，最后出来了这么一个特征图，也就是说它会把这些图片的特征都有机的，或者用艺术的感觉把它连接在一起。

这个就是深度学习的应用，包括计算机的视觉，包括标注、计算机、无人驾驶汽车这里面都是需要用到计算机视觉，比如说你把我的名字输进去以后，给你各种各样我的图片以及我这个人涉及在一起的各种各样的图片。自然语音加工是深度学习应用的另外一个案例，然后是现场翻译，我觉得现场翻译亚马逊翻译等等，以后都是可以实现的，包括大城市的数据，车辆的数据等等。

接下来，给大家讲一下对抗性样本和无法识别的样本。神经网络易受的干扰就是对抗性的噪音干扰。比如说这里面有123456789，如果你加进去一些肉眼看不到的声音进去以后，最后一模一样的图片出来的数据，就变成了6332931这样的，完全不一样的数据。其实这个数据还是123456789，也就是说有一些声音，虽然我们人是完全感知不到的声音，而这些声音输入到机器当中，计算机会非常非常的敏感，会干扰它对图象的识别。这个就是机器所敏感的噪音，另外我们还做了一个随机大容量噪音，随机大容量噪音不是非常细微，而且大家都一样，在每一个数据上面都加入了大容量的随机噪音，出来的结果影响并不是很大，只有一个数据错了。

再比如说，我们看所有的图片，大家看这个图片，它会识别出来的时候都是蘑菇，如果加了噪音以后，识别出来的结果会不一样，所以声音对图形的识别是很有意思。我们加入过程当中，我们怎么样去做对抗性的干扰，对抗性的声音?对抗性的声音我们用的是分类器，我们用不同的每一次识别的时候，我们都输入X，它的矢量也会不一样，对抗性和概率也是不一样的。

最后这个问题，是通过梯度下降实现噪音的对抗性干扰。对抗性干扰，样本的属性应该是非常特别的，刚才我说到的普遍性，就是需要用这样的分类器和基本的线性模型和良好的训练。它的概括性和普遍性是可以通过我们的干扰来实现的。不管你做什么，他们都必须要非常得小心，我们要有很多很多的技术，这个比较专业。比如说基本信息模型，良好的训练分类器等等，抵抗力方面，我们需要正规化，需要降噪建筑，需要对抗性的训练，还有同时发声、共振等等。还要进行一定的预处理，比如说低通滤波器，有源探测等等，普遍性的应用是刚才汽车的例子，这个概化属性的案例比如说语意解释，是像这样的图片过程当中，我们在这个图片的输入过程当中加入噪音，让机器变得疑惑，这个到底怎么样，它会退出来。对抗性的样本是数据部分固有的，是固定任何模型的。说到无法识别的样本，机器跟人最大的区别，就是我们觉得没有问题的东西它会觉得无法识别。这些东西到底是什么呢，需要输入一定的干扰才能够识别。

我们的结果是蓝色的这一部分，大家看Epochs，数据可以学习的周期，可以学习的数量越来越大，学习成本会越来越低，错误率会越来越高，蓝色的就是错误率的降低。当然我们会有一些比较危险的，你输入太多噪音干扰的话，会有一定的风险。我们看到Net1和Net2，Net1是生成噪音的地方，Net2是我们的目标系统。我们看一下稳定性、稳健性，以及怎么样对抗这些样本的稳定性，我们也可以看到输入一定的噪音干扰之后可以降低三分之一的错误率，这个就是神经语言网络学习，当然大家需要去理解这些理论，我们如果知道背后的理论才能够进一步的利用它，减低错误的机率。我们在实验的过程当中，也发现了随机系统是非常稳健的，可以做到非常高度的随机性，99%的随机性，可以看到神经系统随机语言可以达到百分之百的随机性。在整个系统的稳定性方面，基本上可以达到90%的提升。接下来会做什么呢?我们用随机投射，进一步利用到回界回脑的架构当中，我们会继续利用这一点，然后是对抗性的扰乱或是干扰。

谢谢大家。