机器学习已成为大数据的基石

数据库
机器学习可是说是一位无名英雄,它们一直在默默地支持着大量极为复杂的大数据分析应用。

机器学习几乎无处不在,即便我们没有专程调用它们,它们也经常出现在大数据应用之中。我曾经在博客中描述了一些典型的大数据使用案例。换句话说,这些应用都能够在“极端情况下”提供***的结果。在结尾部分,我还提到了拍字节级数据容量、实时数据速度和/或多结构数据多样性的结合。

当时我还列出了一个应用列表,在收集过程中刻意避开了“机器学习分析”。主要原因是,尽管在这些使用案例中机器学习即便不是主要的,也是一个常用的工具,但是它们自身并不是一个使用案例。换句话说,它们不是一个凭借自身力量而形成的特殊应用域。出于同样的原因,我也没有像大数据使用案例那样列出模式设计、元数据管理或数据整合。但与机器学习一样,它们也都为实现大数据分析应用的价值做出了自己的贡献。

机器学习对大数据应用投资回报的贡献主要体现在两个方面:一是促进数据科学家们的多产性;二是发现一些被忽视的方案,有些方案甚至遭到了***的数据科学家们的忽视。这些价值来自于机器学习的核心功能:即让分析算法无需人类干预和显式程序即可对***数据进行学习。解决方案允许数据科学家们根据典型数据集创建一个模型,然后利用算法自动概括和学习这些范例和新的数据源。

许多情况下,机器学习是大数据创新的***投资回报。对机器学习的投资能够深化任何对企业定制的大数据案例。这是因为机器学习算法在容量、速度和类型(即大数据的3个V特性)中正变得日益高效。正如Mark van Rijmenam在近期有关机器学习的文章中所说的那样:“处理的数据越多,这种算法就越能体现出优势。”他认为,包括语音与面部识别、点击流处理、搜索引擎优化、推荐引擎在内,许多机器学习应用可能被描述为意会分析法(sense-making analytics)。

[[110793]]

意会分析法需要对从数据流中推断出来的用户语义方式、内容和重要性进行持续监控。为了支持意会的自动化,机器学习算法必须要经常性地处理一些极为复杂的东西。这其中包括组成对象或环境中隐藏的语义分类,这需要通过多种不同的数据流实时收集整体含义。这些数据流必须包括不同的对象,例如数据、视频、图像、语音、表情、动作、地理信息和浏览器点击等元素。通过机器学习从这些数据流中自动提取出来的含义,可能会混合有认知、情感、感觉和意志特征。

为了在这些素材当中找到线索,“深入学习”(deep learning)成为了大数据科学家的机器学习指令系统中的一个重要工具。正如van Rijmenam所说的那样,利用神经网络开展的深入学习有助于从这些数据流中提取感知能力,因为这些数据流可能涉及组成对象之间语义关系的层次结构安排。“深入学习能够打破数据中具有不同特点的组成成分之间的隔阂,利用这些特点从中找出不同的特征组合,从而搞清楚它们看到了什么或者是正在做什么。”van Rijmenam说。

显然,对于创建能够感知和处理动态分布式方案的环境来说,机器学习一个基础性工具。人类对实时威胁和恐怖主义活动、自然灾难、飓风等其他威胁的侦测与应对能力,取决于对海量数据中的信息进行自动筛选、分类和关联。如果没有这种能力,那么人类就有被“淹死”在大数据海洋之中的危险。

36大数据知识图谱:关于机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

责任编辑:彭凡 来源: IBM大数据专家
相关推荐

2013-04-27 10:40:11

大数据全球技术峰会大数据CIO

2015-06-10 15:06:53

绿色节能数据中心

2010-04-02 16:37:31

云计算

2023-12-08 18:26:03

Java微软Code

2022-08-01 14:15:17

大数据元宇宙

2011-05-12 09:03:18

2023-06-19 11:25:25

2020-09-01 07:55:16

VS CodePython代码编辑器

2011-12-28 21:18:18

App

2013-07-29 10:56:51

2020-12-18 15:20:40

勒索软件网络攻击网络安全

2024-10-16 11:57:49

2009-04-08 13:08:22

多核服务器英特尔

2011-07-21 10:20:39

2021-12-09 11:45:57

云计算云计算环境云应用

2022-06-30 17:57:41

混合云多云公有云

2016-08-30 11:25:48

SafariIE浏览器

2017-05-31 07:34:37

数据经济互联网

2021-05-29 10:27:54

SeverlessDatadog软件堆栈

2022-08-17 11:43:19

僵尸网络DDoS攻击
点赞
收藏

51CTO技术栈公众号