机器学习促进大数据分析走向繁荣

译文
数据库
各种不同类型的设备每天都有产生规模庞大的日志数据,而这已经成为一座蕴藏指导性分析结论的宝藏——惟一的问题是,只有机器学习技术才能开启它的沉重大门。

【51CTO独家特稿】机器生成的日志数据可以说是大数据宇宙当中的暗物质。它由分布式信息技术生态系统当中的每一层、每个节点乃至每种组件所产生,其范畴从智能手机到物联网终端可谓无所不包。它无穷无尽、无处不在,我们能够对其进行收集、处理、分析以及使用,但整个过程大多在幕后进行。

日志数据往往充当着众多枯燥企业应用程序的基础,其中包括故障排查、调试、监测、安全、反欺诈、合规性以及电子取证等等。不过在分析点击流、地理位置、社交媒体以及其它与各类消费者核心类用户密切相关的行为记录数据当中,它同样能够成为一种强大的指导性工具。

仅凭人类的能力根本无法跟上机器记录数据的产生速度。绝大部分这类数据在设计思路或者实际使用上都完全不会考虑人为分析的可能性。除非以粗暴的方式进行直接过滤,否则日志数据那极端的体积、可怕的积累速度以及丰富的具体类别将迅速击溃人类的认知能力。Accenture公司在最近的一篇文章中对此作出了简洁的解释:

随着日志文件在体积与种类方面的不断攀升,日志管理方案解析日志文件、追踪潜在问题乃至切实发现错误的难度也在随之提升——特别是交叉日志间存在关联性时,这种情况就变得更为突出。即使在最理想的状况下,也需要由经验丰富的管理员来捋顺事件链、过滤干扰信息并最终诊断出根本原因——这实在是个相当复杂的过程。

很明显,自动化已经成为在日志数据当中找到分析结论的关键所在,这一点在大数据领域体现得尤为突出。自动化机制能够确保数据收集、分析处理以及规则与事件驱动响应能够切实与数据中的信息相匹配,并在数据流的传输过程中完成任务执行。而要实现日志分析机制的自动化扩展,关键因素则包括机器数据集成中间件、业务规则管理系统、语义分析、流计算平台以及机器学习算法。

在以上因素当中,机器学习是自动化流程以及日志数据规模化分析的重中之重。不过机器学习对于日志数据分析工作而言并不是一套能够以不变应万变的固定解决方案。不同的机器学习技术适合不同类型的日志数据以及不同的分析挑战。利用相关性与其它现有模式为机器学习机制构建先验性监督方案才是正确的处理方式。不过监督性学习人为为其编写一套源自日志参考性“培训数据”集,只有这样才能准确定义机器学习算法的辨别能力、从而选择与实际最为相符的处理能力。

不过如果日志数据模式无法以预告方式作出精确定义,那么非监督性强化学习机制可能更为适合。这些由机器学习技术支持的日志数据分析方案可谓自动化处理的最理想场景,因为此类方案会自主选择匹配程度较高的处理模式并进行优先级排序,从而在无法人为提供培训数据集的前提下完成既定任务。

多日志关联性属于非监督性强化学习方案所针对的核心日志数据分析用例。由于异构式日志数据集在结合过程中会衍生出更高程度的异构性、复杂性以及不可预测性,分析过程当中数据变量以及数据关系将始终混乱而模糊。有鉴于此,如果我们仅仅利用简单的查询、预先设定好的报告与仪表板乃至其它标准化分析机制对其进行查看,隐藏在数据中的信息模式根本不会现身。在这类情况下,机器学习能够利用各类定量方法——例如聚类、马尔科夫模型以及自组织映射等等——提取出最值得注意的关系模式。

无监督性强化学习机制的另一大关键性使用场景在于确定某种特定关系模式此前从未出现过——或者确实曾经出现,但却被人为分析方案标记为“干扰因素”。有作者曾撰文探讨过将机器学习机制应用在安全日志分析当中,从而“立即为用户提供一种典型的访问模式——即使这种特定方式模式此前从未出现过——并防止个人信息丢失所引发的高风险。”

大多数藏身于海量日志数据中的分析结论都拥有几大共同特征:复杂、隐蔽而且此前从未出现过。相较于先验性知识,从日志数据本身着手进行学习已经成为众多数据科学家们投入大量时间与精力的研发重点。他们正不断对自己的机器学习算法作出调整,希望能够从日志中找到就连最出色的人类专家也往往会忽视的重要“信号”。

原文链接:

http://www.infoworld.com/d/big-data/big-data-log-analysis-thrives-machine-learning-244329

核子可乐译

责任编辑:彭凡 来源: 51CTO
相关推荐

2021-02-22 08:00:00

数据分析人工智能技术

2016-10-17 14:14:55

大数据人才招聘

2018-04-20 12:12:18

数据分析可视化数据挖掘

2018-10-24 14:32:15

数据分析数据科学算法

2016-12-15 21:15:58

大数据

2021-06-21 14:04:18

大数据人工智能大数据分析

2014-08-27 16:01:05

AppDynamics

2015-08-14 10:28:09

大数据

2019-09-04 19:58:46

数据挖掘数据分析学习

2015-08-11 15:52:52

大数据数据分析

2020-05-26 16:25:33

Hadoop下载安装

2022-03-29 14:49:14

大数据数据分析

2021-10-12 15:25:08

大数据数据分析

2013-04-09 09:28:20

大数据大数据全球技术峰会

2015-07-23 09:34:57

大数据数据分析

2024-02-29 14:58:03

云计算数据分析

2021-08-06 11:01:23

大数据数据分析技术

2021-11-11 11:27:55

大数据分析系统

2021-08-05 23:24:44

大数据数据分析技能

2016-11-28 14:53:08

数据分析IBM大数据
点赞
收藏

51CTO技术栈公众号