什么是机器学习呢?如果是对此一窍不通的长辈来问你这个问题,你该如何回答?本文将用最简单的词汇来尝试解释这一话题,包括每个人都应该知道的最主要也是最重要的部分。
机器学习是一个旨在让计算机在没有被明确编程的前提下掌握学习能力的研究领域。这是一个正在迅速成长的领域,可以让计算机进一步模仿人类。
机器学习不同于传统计算机科学。在传统中,计算机需要程序员准确地告诉它去做什么以及要怎么做,可以说是非常笨拙了。然而有了机器学习,我们只需要在计算机中输入大量数据,就可以进行分析,并输出结果了。
比如说,你知道怎么在Facebook上发布照片吧。当你发布照片时,Facebook会提醒你标记一些可能在照片中出现了的人。如果你不了解Facebook,那么再举一个更常见的例子,你在浏览Netflix时,网页会推荐一些可能喜欢的剧集或电影。其实,这就有点机器学习的意味了。
再比如说,机器学习在自动驾驶汽车上发挥着重要作用。汽车会收集大量的数据来学习怎样开得更好更安全。显而易见的是,机器学习将在未来的生活中扮演重要的角色。
机器学习不是什么
首先,机器学习并不是像你在电影中看到的那样,机器人想要摧毁人类。当人们听到人工智能时,往往首先会想到“终结者”。其实,机器学习并不是人工智能,它只是人工智能的一个子领域。机器学习已经经过了相当长一段时间的发展。其起源可以追溯到上世纪50年代晚期。当时,IBM的亚瑟·塞缪尔(Arthur L. Samuel)设计了第一款会下西洋棋的机器学习应用。
解释邪恶人工智能时“必备”的终结者图片
深度学习可能是你经常听到的另一个时髦词汇。深度学习的发展历史和机器学习一样长,但是直到上世纪80年代深度学习才得到广泛重视。最终,世界科技巨头如Facebook、谷歌和微软纷纷大力投资深度学习的发展,继而引发了人工智能革命。谷歌翻译、苹果智能助手Siri等等,都是深度学习的产物。
请放心,在可以预见的未来,即使机器学习或人工智能的发展失去控制,也不会对人类社会造成威胁。
怎样让机器学习
看到这里,你可能在想,那么到底是怎样让机器学习的呢?计算机是怎样收集并理解信息的呢?其实,在这一过程中,我们会利用很多数学算法来帮助得到想要的结果。
1. 机器学习中的数学
线性代数是数学的一个研究领域,被公认为是深入了解机器学习的前提。线性代数的内容非常广泛,包含很多晦涩难懂的理论和发现。但是其基本方法和符号对机器学习研究者来说是非常有用的。所以,需要有坚实的线性代数知识作为基础。
数学对学习机器学习来说是极其重要的,因为我们需要在选择算法时考虑其准确性、训练时间以及其他性能。数学可以帮助我们找到一种让机器学习的最佳方法。除了线性代数,机器学习科学家/工程师也需要掌握微积分、算法、概率论和统计学等数学概念。在机器学习中,Python是最常用的一种编程语言。
2. 联想到大脑
大脑会将世界上各种各样的信息收集起来形成我们对现实的看法。计算机也需要做到这一点。神经网络就承担了这一职责。
神经网络是让计算机模拟人类大脑最常用的方法。人类大脑由将近10亿个神经细胞,也就是神经元构成。人类大脑非常擅长解决问题。在解决问题时,每个神经元都会负责解决其中的一小部分。这些神经元可以收集和传递信号,就像一个电网。
3. 人类大脑神经元
在知道了计算机神经网络是受到人类大脑结构启发设计的之后,你可能想知道这些神经元是怎么连接在一起的。每个神经元都会接收输入,然后产生输出。输入节点(输入层)为神经网络提供来自外界的信息,就好比是你的眼睛看到并收集信息后传递给大脑。
输出节点(输出层)则负责将信息反馈给外界。假设下图中的网络将被训练用来识别数字。一个数字从输入层输入,经过隐藏层,然后在输出层以被识别出的数字输出。隐藏层的神经元会互相交流各自获取的信息。它们利用这些信息来识别输入的数字是什么。每一层都会影响到下一层。
当训练计算机神经网络做其他事情,比如说音频识别时,则更为神奇。计算机可以学习对演讲进行文法分析、分段音频以及筛选出不同的声音。这些声音被组合起来,构成特定的音节、单词、词组等。在构建网络时,你需要知道:
- 卷积网络往往用来做图像识别
- 长短时记忆网络往往用来做演讲识别
机器学习还有多种方法,比如监督学习、非监督学习和强化学习,是经常使用的三种方法。本文不再详述。简单来说,神经网络使得计算机能够接收信息,将信息分成易于理解的部分,最后输出它能得出的最接近的结果。
挑战与局限性
虽然机器学习非常强大,但仍有很多局限性,克服这些局限性将帮助机器学习技术更上一层楼。
首先,机器学习算法需要大量的存储数据用于训练,而给这些数据做标记是一个非常繁琐的过程。输入机器的数据必须是被标记过的,否则机器将无法变得智能。算法仅能开发机器的决策能力,并与其按要求操纵的环境保持行为一致。
另一个问题就是机器无法解释它自己。这就使得你很难知道它为什么做出某个决定。
最后一个也是最重要的一个局限性就是很难避免偏差。透明性至关重要,公正的决策可以帮助建立信任。比如说,面部识别在社交媒体和执法中发挥着重要的作用。但是面部识别提供的数据集中的偏差会使得结果不准确。如果说算法有偏差,并且数据集和训练数据是不平衡的,那么最终输出的结果将会放大数据集中的区别和偏差。
未来是机器的
机器学习是人工智能发展的基础,它的未来是不可阻挡的。机器学习已经成为了现代生活的一部分。
如果你使用Spotify听音乐,你会发现它会根据你听的歌曲给你做每日推荐。亚马逊也会根据客户的购物习惯,学习如何给客户推荐他们可能感兴趣的商品。类似于亚马逊的Alexa,苹果的Siri以及微软的Cortona这样的虚拟助理,都是基于机器学习来理解人们说的话并和他们交互的。
机器学习在商业中也得到了广泛应用。它可以自动化一些通常需要人类操作的工作。很多公司会在客户服务部门使用聊天机器人和服务机器人。这些机器人会学习如何回复客户,为客户提供智能化的、有用的帮助。
还有机器学习在自动驾驶汽车和卡车上的应用。车辆需要学会识别路上的障碍物,如停车标志、暴风雪、路中间的球、其他车辆等,并做出相应的反应。收集的信息越多,它们就表现得越像人类。比如说,它们可以识别出一个被雪覆盖的停车标志。
机器学习可以让我们的生活变得更加便利。人们不断地提出各种利用机器学习的方法,一场工业革命正在悄然发生。至于当机器学习逐渐引导我们走向真正的人工智能技术时,人类的生活会变成什么样,只能靠想象了。