大数据人工智能技术,在应用层面包括机器学习、神经网络、深度学习等,它们都是现代人工智能的核心技术。在大数据背景下,这些技术均得到了质的提升,人工智能、机器学习和深度学习的包含关系如下图。
基本概念理解
1.机器学习
机器学习(Machine Learning)也被称为统计学习理论,是人工智能的重要分支。它通过数据分析获得数据规律,并将这些规律应用于预测或判定其他未知数据。机器学习目前已经广泛应用于数据挖掘、自然语言处理、语音识别等,尤其是在搜索引擎领域。
搜索引擎是人工智能技术发展的先锋队,目前百度已经定位为一家人工智能公司,同时搜狗王小川也将人工智能视为未来。在海量数据面前,机器学习的方法成效显著,具体算法包括决策树、感知器、支持向量机、马尔科夫链、最近邻居法等。拥有大规模用户的搜索引擎业务的公司是***接触到大数据的企业,它们对于机器学习的需求远远超过其他公司。这类公司利用人工智能技术的原因是希望其搜索结果更加精准,甚至能直接***用户答案。
人工智能的发展经历了从“推理”到“知识”、从“知识”到“学习”的重要过程,机器学习一直在人工智能的道路上解决问题。机器学习不是一个单一的学科,而是与数学、计算机、生物学等多领域有交叉的学科。机器学习目前不仅应用在搜索引擎中,在生物特征识别、生物医学研究、证券分析等里领域都有深入应用,并取得了不错的成绩。
从另外一个角度看待机器学习,机器学习的“学习”意味着机器学习的算法尝试沿着某个维度进行优化,可以理解为它们通常尝试以最小的错误率来***限度地发挥其预测的可能性。因此产生了三个名称:错误函数、损失函数以及目标函数,因为每一个机器学习算法都有一个学习目标。
项目或工程中使用机器学习算法时,可以通过确定输入、输出以及目标函数和最小错误率来评估其算法的作用与效果。
对于机器学习算法中的输入和输出,通常情况下,初步测试的输入与输出的对应结果都是错误的,如果拥有与输入有关的输出结果对应关系,那么可以通过与期望的输出结果对比来衡量猜测的准确度,然后使用该错误来修改算法,这是有监督学习的常见方式。它们不断估算输出结果并修改估算过程的参数,直到错误率达到极值。
2.神经网络
神经网络(Artificial Neural Network)是机器学习的一个重要算法,也是奠定深度学习发展的基础算法,它的思想影响了深度学习,使得深度学习成为人工智能中极为重要的技术之一。
神经网络作为一种常用的方法,是一种通过模仿生物的神经网络结构和功能的数学模型,也是一种自适应的计算模型。它通过感知外部信息的变化来改变系统的内部结构。神经网络由许多的神经元组成,神经元之间相互联系构成信息处理的庞大网络。假设做一件事情有多种途径,那么神经网络会告知设计者哪一种途径是***方式。
神经网络的优势在于它是一个能够通过现有数据进行自我学习、总结、归纳的系统,能够推理产生一个智能识别系统,从而成为人工智能技术中的重要基石。
3.深度学习
深度学习(Deep Learning)是机器学习的重要分支,也是传统神经网络的重要延伸。深度学习的网络结构已有很多,例如深度神经网络、卷积神经网络、递归神经网络等。作为多层非线性神经网络模型,它拥有强大的学习能力,通过与大数据、云计算和GPU 并行计算相结合,它在图形图像、视觉、语音等方面均获得较好成就,远远超越了传统机器学习的效果,因此深度学习被大众视为人工智能前进的重要一步。2016 年3 月,以深度学习为基础的人工智能围棋应用AlphaGo 在围棋比赛中战胜人类围棋高手,成为热议话题。
深度学习目前在图像处理、语音识别、生物特征识别等领域中已经获得了广泛的应用,并得到行业较高评价,这使得深度学习持续发展,加速推进人工智能的发展。
深度学习与机器学习的关系
在以往,绝大多数的机器学习方式都是浅层结构,即使采用非线性处理的方式,这些浅层结构的深度往往也不会太深,这种状况在近十年左右才得以改变;随着计算能力的增强,计算的深度也在不断增加。
机器学习中常见的浅层结构包括高斯混合模型、支持向量机、***熵模型、逻辑回归、多层感知器,等等。实践不断告诉我们,浅层结构在解决一些简单问题时效果比较明显,但是对于处理复杂多变的问题,例如语音、视频等则效果较差。
深度学习的基础研究源自神经网络。神经网络中最为常见的是前馈型神经网络,倘若具备多隐藏层则可以被称作深度神经网络(Deep Neural Network)。深度神经网络能够显著提升问题的处理效果,虽然目前训练过程中需要强大的计算能力,但是借助GPU 以及分布式计算,可以在保障效果的前提下有效提升计算效率。
深度学习可以处理任何类型的数据,例如:
(1)声音。主要针对语音识别、语音合成、语音模拟等。
(2)文本。包含自然语言处理、自然语言生成等。
(3)图像。针对计算机视觉领域,包括图像分类、图像目标检测、图像语义分割等。
(4)时间序列。主要在数据传感、关联事件分析等细分领域。
(5)视频。主要在视频内容理解,智能视频广告等领域。
深度学习可以解决几乎任何机器感知的问题,包括对数据进行分类、聚类或对其进行预测分析。
(1)分类:例如对垃圾邮件和非垃圾邮件的归档处理。
(2)聚类:例如对相似性较高的文档进行归档处理。
(3)预测:例如根据历年的气象数据和最近的天气变化预测未来一周的天气情况。
深度学习非常适用于非结构化数据,例如上面提到的图像、视频、声音以及文本等。一个图像是像素的组合,一个消息是文字的组合。这些数据没有按行和列组织在典型的关系数据库中,这使得浅层结构的机器学习方式对其进行特征分析相对较为困难。深度学习的常用用例包括情感分析、图像分类、预测分析、推荐系统、异常检测等。
深度学习与人工智能的关系
从开篇的包含图中,已知深度学习是机器学习的一个子集,而机器学习又是人工智能的一个子集,因此深度学习是人工智能的一个子技术分支。
智能程序是一种广泛应用的计算机智能程序,它可以通过一系列的条件判断形成,但是这样的智能程序往往很容易理解,因此智能程序不能视作当前的人工智能。人工智能是面向数据深入地分析结果,结果的推测过程不是人为可快速推测的,而是需要计算机辅助完成。深度学习则是借助计算机完成的、较好的人工智能技术。
既然机器学习是人工智能的技术分支,那么总有部分算法或模型属于人工智能领域但是不属于机器学习领域,例如规则引擎、专家系统、进化算法等,它们都属于人工智能的技术体系,但并不是机器学习。
深度学习是人工智能一个技术子集。深度神经网络在一系列重要领域,例如图像识别、声音识别、推荐系统等不断刷新各项指标,甚至超越了人类的认知范围。由DeepMind 研发的著名人工智能程序AlphaGo,在2016 年击败了前世界围棋冠军李世乭,这也是深度学习技术对各领域影响的场景之一。
深度学习中的“深”是一个技术术语,一般而言,它指的是神经网络中的层数。一个浅层网络有一个所谓的隐藏层,而一个深层网络则有一个以上。对于一般简单的数据特征,它会从网络层的一层传递到下一层用映射关系表示,而深度神经网络的层次结构可以表达更为复杂的数据映射关系,以表示更复杂的特征。人工智能面向的问题也具备多层次数据的复杂特征,因此深度学习有效地解决了目前各行各业中的部分复杂问题。