机器数据的指南-splunk系列（1）-数据机器训练

[[194049]]

(一)前言

时间序列数据(TIME-SERIES DATA)、大数据(BIG DATA)。无论您称之什么，机器数据(machine data)都是任何组织中最容易低估的资产之一。而且，不幸的是，数据通常保留一段很短的时间，然后就被丢弃，再也看不见。

但是，您可以从中获得的一些最重要的见解，这通常隐藏在这些数据中：哪里出问题，如何优化客户体验，以及欺诈证据。所有这些见解都可以在组织的正常操作所生成的机器数据中找到。

机器数据是有价值的，因为它包含客户、用户、交易、应用程序、服务器、网络和移动设备的所有活动和行为的确定性记录。它包括配置，来自API的数据、消息队列、事件，诊断命令的输出，来电详细记录和工业系统等的传感器数据。

利用机器数据的挑战在于它令人眼花缭乱的不可预测的格式，传统的监控和分析工具无法应对数据的种类、速度、容量或变化。但是，利用这些数据的组织有很大的优势，包括快速诊断服务问题，检测复杂的安全威胁，了解远程设备的运行状况和性能并证明合规性。

在实践中使用机器数据

使用机器数据需要三个(看似简单的)步骤：摄取、关联和分析。

从机器数据获得最大价值的组织能够区分不同的数据类型，将它们链接在一起，并从结果中获得价值。但是最大的挑战之一就是理解你应该摄取哪些数据。

根据需求，定义use cases – 无论是安全性、IT操作、业务分析还是物联网 – 你可以开始识别数据源，并开始关联。

本书提供了几乎所有规模的组织中最常见的机器数据类型的概述。虽然每个组织的需求和数据来源将随着供应商、产品和基础设施的不同而不同，但本书详细介绍了应该查找机器数据的位置及价值。

本书中列出的许多数据源可以支持多种use cases – 这是驱动机器数据巨大价值的主要部分。每个数据源支持的use cases可以用下面的图标轻松识别。

(二)数据源

可用的数据源有：用户数据、应用数据、中间件数据、网络数据、操作系统数据、基础设施数据、物联网数据及其他数据源，本文列出了8大类，59小类数据。

其中每种数据前面的不同的颜色代表不同的价值，其中安全相关的是黄色的，共43小类，也可以看出安全能用的数据真不少。

以下抽样几种与安全相关的数据介绍，原文见：https://www.splunk.com/pdfs/ebooks/the-essential-guide-to-machine-data.pdf

(三)用户数据介绍

用户类两种：认证数据和VPN数据，以认证数据为例：

use cases：安全与合规，IT运营，应用交付

示例：AD、LDAP、身份管理，单点登录

IT操作和应用交付：验证数据支持IT操作团队，因为能对身份验证相关的问题进行排错。

安全合规性：为了安全起见，认证数据提供了大量关于用户活动的信息，例如在给定时间窗口内多次登录失败或成功，在一定时间内来自不同位置的登录，以及暴力破解活动。特别：

Active Directory域控制器日志包含有关用户帐户的信息，例如特权帐户活动，以及有关远程访问，新建帐户创建和过期帐户活动的详细信息。
LDAP日志包括用户登录系统的时间和地点以及访问信息的记录。
身份管理数据显示用户、组和职位的访问权限(例如CEO，主管或普通用户)。该数据可用于识别可能存在潜在的访问异常 – 例如，CEO访问低级网络设备或通过CEO帐户的进行网络管理。

(四)应用数据介绍

应用类以漏洞扫描类数据为例：

Use Cases:安全合规

示例: ncircle IP360, Nessus

找到安全漏洞的有效方法是从攻击者的角度来检查基础设施。漏洞扫描探测组织的网络，以获得为外部攻击者提供入口点的已知软件缺陷。这些扫描产生关于开放端口和IP地址的数据，攻击者可以利用这些数据来获取进入特定系统或整个网络。

默认情况下，系统通常会保持网络服务运行。这些运行的、不受监控的服务是外部攻击的常见方式，因为它们可能没有更新补丁。大规模漏洞扫描可以揭示的安全漏洞。

安全与合规性：漏洞扫描产生有关恶意代理程序可以使用的开放端口和IP地址的数据，以获取进入特定系统或网络。数据可用于识别：

系统配置错误导致安全漏洞
过时的补丁
不必要的网络服务端口
配置不当的文件系统，用户或应用程序
系统配置变更
各种用户，应用或文件系统权限的变更

(五)中间件数据介绍

Middleware Data以web服务器数据为例：

Use Cases: IT Operations, Application Delivery, Security & Compliance,

Business Analytics

Examples: Java J2EE, Apache, Application Usage Logs, IIS logs, nginx

Web服务器是每个web网站后端应用，传递浏览器客户端所看到的所有内容。 Web服务器访问静态HTML页面，并以各种语言运行应用程序脚本，生成动态内容，并调用其他应用程序(如中间件)。

安全合规性：Web日志记录错误条件，例如访问没有适当权限的文件的请求，并且还跟踪标记为安全攻击(例如未经授权进入或DDoS)的用户活动。它还可以帮助识别SQL注入，并支持关联欺诈交易。

由于Java app经常访问网络服务和敏感数据库，安全团队可以使用日志数据来检查J2EE应用程序的完整性，识别可疑应用程序行为和应用程序漏洞。
Apache Web日志可告警安全攻击，如尝试未经授权的进入，XSS，缓冲区溢出或DDoS。
与Web日志一样，Application Usage Logs可以告警未经授权的访问，例如某人比平时消耗更多资源，或在奇怪的时间使用应用。

(六)网络数据介绍

以DNS数据为例：

Use Cases: IT Operations, Security & Compliance

Examples: BIND, PowerDNS, Unbound, Dnsmasq, Erl-DNS

安全合规性：安全团队可以使用DNS日志来调查客户端地址请求，例如将查找表与活动相关联，调查：请求是否针对不适当、其他可疑网站以及站点或域的相对受欢迎程度。由于DNS服务器是DDoS攻击的重点目标，日志可以显示来自外部源的异常高数量的请求。同样，由于受攻击的DNS服务器本身通常用于对其他站点发起DDoS攻击，因此DNS日志可以显示组织的服务器是否已被攻击。 DNS数据还可以提供对未知域名，恶意域名和临时域名的检测。

(七)操作系统数据

Use Cases: IT Operations, Application Delivery, Security & Compliance

Examples: Unix, Windows, Mac OS

安全与合规：系统日志包括各种安全信息，如尝试登录、文件访问和系统防火墙行为。这些条目可以对网络攻击，安全漏洞或受到攻击的软件做出告警。它们也是安全事件取证分析中宝贵的资料来源。例如，数据可用于识别用户或特权用户执行的系统配置和命令的变更。

(八)虚拟化基础设施数据

Use Cases:IT Operations, Security & Compliance

Examples:CloudTrail, CloudWatch, Config, S3

AWS是最多和最广泛使用的公共云基础设施，通过基于消费的定价提供按需计算，存储，数据库，大数据和应用服务。 AWS可用于替代传统企业虚拟服务器基础架构。 AWS包括一系列服务管理，自动化，安全，网络和监控服务。

安全合规性：来自AWS服务的安全数据包括登录登出事件和尝试，来自网络和Web应用程序防火墙的API调用和日志。

(九)物联网数据

Use Cases: IT Operations, Security, Business Analytics, Internet of Things

Examples:Binary and numeric values including switch state, temperature, pressure, frequency, flow, from MQTT, AMQP and CoAP brokers,

HTTP event collector

安全与合规性：传感器数据可以帮助保护关键任务资产和工业系统免受网络安全威胁，提供对系统性能的可视化或设置点，避免机器或人员处于危险之中。数据也可用于满足合规报告要求。