2016GBDC|地平线机器人科技创始人兼CEO余凯：大数据深度学习-51CTO.COM

2016年1月20日，2016全球大数据峰会GBDC2016在京举行。本次大会由全球大数据联盟（GBDC）、全球移动游戏联盟（GMGC）、世界O2O组织（WOO）、光合资本主办，中国互联网协会（ISC）O2O工作组、中国汽车流通协会（CADA）支持。地平线机器人科技创始人兼CEO，前百度IDL常务副院长，前百度研究院副院长余凯做了主题为《大数据深度学习》的演讲。以下是他的演讲全文：

[[162216]]

余凯：大家上午好。大家最近应该经常听到一个词，就是深度学习。我讲一下深度学习的进展。为什么现在深度学习受到重视？实际上是跟这个时代背景有关系的，一方面是跟大会的主题有关，就是大数据；另一方面，另外一个基础性的支撑，就是计算能力的提升，这两个基础的支撑性的因素，使得今天更加复杂的模型，能够发挥它的价值。这是一个大概的背景。我们讲人工智能爸爸硬件的系统或软件的系统，但是它的本质上有感知，理解到决策的过程。比如我们看搜索引擎的话，它也是一个人工智能系统，虽然它是纯软件形态，它一方面通过搜索服务去感知用户的需求，通过很多大数据人工智能的技术，比如自然语言学习，数据挖掘这些技术，去理解数据背后所蕴含的用户的需求是什么，然后去实现它的商业价值，这里有很多很多的决策。

我记得1956年“人工智能”这个词被提出，到今年正好是六十年时间。在六十年的时间基本可以划分为两个阶段：***，基于规则的人工智能，这个一直到八十年代末，那个典型的叫专家系统。到八十年代末开始到现在，有更多的是基于数据驱动的人工智能。这样的话计算，大数据这两个关键的支撑在过去的二十多年的时间去推动这个领域去往前发展。

我们讲人工智能可以做很多很多事情，但是是不是可以有一个相对简单的框架使我们能够研究它、刻画它？这样一个简单的框架我们用一个映射来描述，就是从X到Y的映射。比如说X的话，是Image，Y是Object，这就是简单的图像识别。如果X是Speech，Y是Texts，这个就是简单的语音识别。如果X是Language，Y是Parse Tree这就是自然语言的处理。如果是各种传感器在汽车上面把路上的信息都搜集过来，实时的做决策，X就是传感器受到的数据，Y就是控制的的决策，我们看不同人工智能的问题，基本可以用一个相对简单的框架，从X到Y的框架来数。学习问题在这里面是怎么回事呢？就是你有一堆的训练样本，这堆训练样本告诉你，如果是这样的输入，它的输入是什么？比如这样的一个图像，它的输出是它的一个标注，是什么？这样的话学习一个映射函数，这个映射函数告诉你，有了这个映射函数就会回答这样的问题，比如给了下面这幅图像，让它的输出是什么。这样就是从学习到应用，就是从数据中学习模型，然后运用这个模型的过程。

最简单的一个***的模型，也许是一个问题，就是说我们给你六个训练样本，六个例子，纵轴是输出，横轴是输入。我们把背后蕴含的规律给找出来，这个规律可能是这样的，这个规律好不好，有没有更好？如果是这样的规律，我们觉得怎么样？可不可以做的更好？其实所有的规律都解释了我们的样本，但是哪个是真实的？所以这里反映到机器学习和人工智能很本质的问题，就是学习的空间的复杂度的问题。

我们讲目前我们在自然界，在世界上所知道的***的学习机器，能够学习，从X到Y的是人类的神经系统，人的大脑。人的大脑最本质的单元就是神经元。从神经元的话可以从一个简单的数学模型来模拟他的行为，他的输入和输出行为。这样的话就得到我们一个最基本的，用计算机程序，可以去构造的一个学习机器。我们把这样的一个基本单元，在好几个维度去给它扩张、扩展，让它得到更加复杂的模型，这就得到了我们今天最成熟，最受到关注的深度学习模型。比如说我们纵向的维度是越来越深。在横向的话，比如说时间的维度，空间的维组去扩展，我们得到的也是针对这个序列的，叫递归神经网络。

深度学习在当前的话，在工业界广为受到关注，包括互联网的这些巨头，本质的原因，为什么受到重视？我想主要有四方面的原因：***，它是我们目前所知道的说话的计算机系统里面最接近人脑的结构跟行为的这样的计算模型。第二，从统计和计算角度来讲，深度学习特别适合大数据。第三，从思维方法，方法论的角度来讲，它是当前唯一的一个所谓强调叫端到端的学习系统。什么叫端到端的学习，待会儿我会解释。第四，它实际上提供了一个非常灵活的框架，它的框架可以让你去很容易描述各种不一样的人工智能的问题。

我们讲为什么深度学习特别适合大数据？看这样一个简单的适宜，传统的人工智能算法通过学习效果不一定会增长，深度学习可以。像语音识别，在2012年之前，基本上几百个小时的训练，大家觉得已经了不起了。深度学习在2012年真正用于工业界，那个时候一下加到7千个小时，效果不断提升。这里不光把语音学习的深水模型用深度学习，整个都用深度学习，包括后面用序列的神经网络，这样的话加到几万个小时效果还在不断提升。另外就是所谓的端到端的学习，过去的话传统的无论是说模式识别也好，还是数据挖掘也好，语音识别也好，图像识别，还有很多其他的事情，其实都是有一个序列的步骤，这里面大部分的步骤都是用人工的方法来做的，并不是一种自动的方法。深度学习的话是说把所有的这些中间的步骤全都归结成一个学习问题，然后去优化一个统一的目标，能不能***的最终的优化的结果，这就是所谓端到端的学习，今天受到重视的原因。

成功应用的话，比如包括图像识别，图像识别，这是在2012年的时候，我们经常用的一张图，就是一个卷积的有很多层的神经网络，用于做图像的识别。过去的三年的发展，其实发展非常快。到2012年底的时候***的网络到十层，到去年***的网络到四十层，现在***的网络已经到了152层，就是更深的网络导致更好的效果。所以这还是在快速的进展过程中。比如我们看到一个典型的图像评测，由于深度学习的发展，带过去的五年时间里效果不断的变好，错误率不断降低，甚至超越了人类的能力。包括语音识别，传统语音识别的是这样的，就是先把声音信号转换成拼音，然后再从拼音转化成文字，先把转换成拼音的步骤变成深度学习的模型，然后带来语音识别的一个突飞猛进的进展。最近的进展是把整个变成深度学习，然后进一步去提升。我看到百度***次做这个的时候错误率在15%左右，到现在是5%以内。可以想像，大概在两到三年内错误率能够降到1%以内。这个我有充分的信心。

传统的语言方法，是把整个的问题分解成很多的不连贯的子问题，比如从词法分析到语法分析，到语义分析，到今天是一气呵成的学习系统。还有用更复杂的语义去搜索，包括在广告的变现系统，背后的话是大规模的工程来支撑。因为这个计算量特别大，需要有上千台的机器去做并行的计算。所以这是目前在互联网领域最成功的应用，基本上全部改写成深度学习，把语音，图像，自然语言理解，搜索，变现这些。现在的话，除了在云端去做这些事情的话，我们发现我们希望把很多物理的东西变得聪明，需要在这个上面，前端去部署这些深度学习的系统。比如像自动驾驶里面，如果对前方的小孩撞过来，你这个识别要到云端处理，然后再来反应，这是不可想象的。如果你的网络带宽出了问题怎么办？所以要在原端，原地，实时处理。还有很多处理要在本地来做。所以我们看到一个趋势，深度学习的部署，从云端开始往前端来迁移。迁移的话需要我们对计算的处理器做一些重新的思考。

这里的话我想问一下大家，大家觉得人类大脑是专用处理器还是通用处理器？大部分都认为通用处理器啊？我来挑战一下，谁能回答这个问题？大脑对有些问题，特别的容易，比如拿着麦克风在这里讲话，走路。但是对很多的问题，其实它并不是很擅长。其实大脑的话，是专用处理器。它的专用处理器专用带什么地方？它作为这些年作为一个物种去繁衍，它有一专门的技能化优化它，对不需要的没有专门优化它，所以大脑是专用处理器。

这里有一个经典的硬件设计方面的，就是你越是通用的话，你就越牺牲效率；你要是专门处理问题的话，效率就特别高，但是会牺牲通用性。人的大脑实际上是专门通过处理过的，比如从信号的传递大概要200毫秒的时间。这样的话基本不能开车，不能滑雪能干呢？是因为对这样的结构进行了专门处理，使它并行，使它能够非常的快。所以对未来来讲，对机器人未来硬件还有很多话，是必须从专用的处理器来设计它，使它对人类感知的问题要进行专门的设计。