这是我们关于保护重要信息系列文章——《数据保护和行为分析》的最后一篇。 我们的第一篇文章《数据护栏与行为分析(上):理解任务》,介绍数据保护和行为分析:理解任务,我们介绍了内部风险的概念和主要类别并深入研究并定义了这些术语。 在我们结束本系列文章时,我们将通过一个场景将它们放在一起,演示这些概念在实践中是如何工作的。
护栏不是拦截器,因为用户仍然可以共享文件。 提示用户进行验证既可以防止错误,又可以在安全检查中进行责任循环,允许业务快速发展,同时最小化风险。 你还可以根据预先确定的阈值查找大型文件移动。 只有在违反策略阈值的情况下,护栏才会生效,然后使用与业务流程相一致的执行行动(如批准和通知) ,而不是简单地阻止活动。
- 数据行为分析使用历史信息和活动(通常使用已知-好的和已知-坏的活动的训练集) ,它产生人工智能模型来识别异常。 我们不想描述得过于狭窄,因为有各种各样的方法来构建模型
- 无论数学细节如何,历史活动、持续监视和持续建模都是必不可少的
- 根据定义,我们关注的是作为这些模型核心的数据行为,而不是用户活动; 这代表了用户行为分析(UBA)的一个微妙但关键的区别。UBA根据每个用户跟踪活动。数据行为分析(DBA这个缩写已经被采用,因此我们将创建一个新的缩写——TLA),而是着眼于数据来源的活动。 这些数据是如何使用的? 通过哪些用户群体? 使用这些数据会发生什么类型的活动? 什么时候? 我们不会忽略用户活动,但会跟踪数据的使用情况。
- 例如,我们可以问,“这个组中的用户是否公开过这种类型的文件? ” UBA会问“这个特定的用户是否公开过文件? ”,关注数据为发现更广泛的数据使用异常提供了机会。
- 显而易见,数据越好,模型就越好。 与大多数与安全相关的数据科学一样,不要假设更多的数据必然会产生更好的模型。 这与数据质量有关。 例如,用户之间交流模式的社交图可能是一个有价值的提要,用于检测像文件在通常不合作的团队之间移动的情况。 这值得一看,即使你不想完全屏蔽这些活动
数据保护处理已知的风险,并在减少用户错误和识别由欺骗授权用户进行未经授权的操作导致的帐户滥用方面特别有效。 护栏甚至可以帮助减少帐户接管,因为如果攻击者的行动违反了护栏,他们就不能滥用数据。 然后,数据行为分析为不可预测的情况和那些坏人试图规避防范措施的情况(包括恶意滥用和账户接管)补充了防范措施。
在我们总结数据护栏和行为分析系列文章时,让我们通过一个简单的场景来展示这些概念如何应用于一个简单的示例。 我们要举例说明的这个公司是一家小型制药公司。 和所有的制药公司一样,他们的大部分价值在于知识产权,这使得知识产权成为攻击者最重要的目标。 由于快速增长和高度竞争的市场,该公司在推出产品和建立合作伙伴关系之前没有等待完善好基础设施和控制。 作为一家没有遗留基础设施(或思维模式)的新公司,大部分基础设施都是在云中构建的,它们采取的是云优先的方法。
事实上,这位首席执行官因其创新性地使用基于云计算的分析来加速新药的鉴定过程而获得了认可。 就像 CEO 对这些新的计算机模型感到兴奋一样,董事会也非常关注外部攻击和内部威胁,因为他们的专有数据存在于几十个服务提供商中。 因此,安全团队感到压力很大,必须采取措施解决这个问题。
CISO 非常有经验,但仍在处理云优先方法固有的思维方式、控制和操作动作上的变化。 默认使用标准的数据安全措施代表着阻力最小的路径,但她足够聪明,知道这会在公司关键知识产权的可见性和控制权方面造成巨大的差距。 使用数据护栏和数据行为分析的方法提供了一个机会,既可以定义一套硬性的数据使用和保护策略,也可以监视潜在表明恶意意图的异常行为。 那么让我们来看看她将如何领导她的组织通过一个过程来定义数据保护和行为分析。
寻找数据
正如我们在前面的文章中提到的,数据护栏和行为分析的独特之处在于将内容知识(分类)与上下文和用法结合起来。 因此,我们将采取的第一步是对企业内部的敏感数据进行分类。
这涉及到对数据资源进行内部发现。 实现这个目标的技术已经成熟并且很容易理解,尽管还需要确保将发现范围扩展到基于云的资源。 此外,他们需要与业务的高层领导交谈,以确保他们了解业务策略如何影响应用程序架构,从而影响敏感数据的位置。
内部的私人研究数据和临床试验构成了该公司大部分的知识产权。 这些数据可以是结构化的,也可以是非结构化的,这使得发现过程变得复杂。 这在一定程度上得到了缓解,因为该公司已经采用云存储来集中非结构化数据,并尽可能采用 SaaS 作为前台办公功能。 考虑到云环境中相对不成熟的操作流程,许多新兴的分析用例仍然是一个需要保护的挑战。
与其他所有安全性一样,可见性优先于控制,为了让数据安全流程继续运行,首先需要完成这个发现和分类过程。需要明确的是,让云服务中的大量数据通过 API 进行寻址并不能帮助保持分类数据是最新的。 这仍然是数据安全面临的较大挑战之一,因此需要具体的活动(以及分配的相关资源) ,以便随着流程进入生产阶段,使分类保持最新。
定义数据护栏
正如我们前面提到的,护栏是规则集,用于将用户保持在授权活动范围内。 因此,CISO 从定义授权操作开始,然后在数据所在的地方执行这些策略。 为了简单起见,我们将护栏分为三大类:
- 访问:这些护栏与强制访问数据有关。 例如,与临床试验招募参与者有关的文件必须严格限制在负责招募工作的小组内。 如果有人打开了对更广泛群组的访问权限,或者将文件夹标记为公共文件夹,护栏就会移除这个访问权限,并将其限制在适当的群组中。
- 行动:她还想定义谁可以对数据做什么。防止某人删除数据或将数据从分析应用程序中复制出来是很重要的,因此这些护栏通过防止误用来确保数据的完整性,无论是故意的/恶意的还是意外的。
- 操作:最后一类护栏控制数据的操作完整性和弹性。 有进取心的数据科学家可以快速、轻松地加载新的分析环境,但可能不会采取必要的预防措施来确保数据备份或所需的日志 / 监控发生。 实现自动备份和监控的护栏可以作为每个新的分析环境的一部分。
设计护栏的关键是要把护栏看作是某个开关,而不是拦截器。 异常处理的有效性通常取决于实现护栏的成败。 为了说明这一点,让我们考虑一下该组织与一家较小的生物技术公司的合资企业。 一个护栏的存在是为了限制10个内部研究人员访问与该产品有关的数据。 然而,很明显,来自合资伙伴的研究人员也需要访问,所以你需要扩大护栏的访问规则。 但是你也可能希望对那些外部用户强制执行双重身份验证保护,或者可能实施一个位置保护,将外部访问限制在合作伙伴网络内的 IP 地址。
正如你所看到的,你在如何部署护栏方面有很多粒度。 但是要把注意力集中在速战速决上,所以不要试图在第一天就把所有能想到的措施都付诸实施。 关注最敏感的数据,建立和完善异常处理流程。然后,随着过程的成熟,系统地增加更多的护栏,你会了解到什么对减少攻击面影响最大。
细化数据行为分析
一旦设置了护栏,就可以实现较低的数据安全门槛。 你可以确信大量的数据不会被提取和复制,或者未经授权的群组不会访问他们不应该访问的数据。 通过建立授权活动,停止未经授权的事情,可以消除大部分攻击面。
也就是说,授权用户可能会有意或无意地造成很多损害。 行为分析通过降低不在预定义规则范围内的负面活动的风险,来解决这些问题。 因此,我们希望将数据护栏与数据使用分析结合起来,以识别典型的数据使用模式,然后寻找非正常的数据使用和行为。 这需要遥测、分析和调整。 让我们用非结构化数据来描述这种方法。
回到我们制药公司的例子,云存储供应商跟踪谁对他们环境中的数据做了什么。 这种遥测技术成为他们的数据行为分析程序的基础。 为了准确地训练分析模型,他们不仅需要已知的正常活动的数据,还需要他们知道违反策略的活动的数据。 请记住数据质量的重要性,而不仅仅是数据的数量。 在构建自己的程序时,一定要收集关于用户上下文和权限的数据,这样就可以跟踪数据的使用方式、时间和用户群。
当然,你可以在所有的遥测数据中寻找异常的模式,但是那会产生很多噪音。 因此,我们建议你首先确定一种你希望检测的行为类型。 例如,临床试验数据的大规模外泄。 因此,你需要确定哪些特定的文件 / 文件夹拥有这些数据,并查看不同的活动模式。 快速分析显示,亚洲的一组研究人员一直在访问这些文件夹,访问时间是在他们当地地理位置的非工作时间。 这会触发警报,引起你的调查。 事实证明,其中一名研究人员与另一个欧洲团队合作,因此一直在非标准时间工作,导致了异常的数据访问。 在这种情况下,它是合法的,但是这种方法不仅向你告警了可能的误用,而且还发出信息,即安全团队正在寻找此类活动作为一种威慑。
如果你使用的是现成的产品,其中大部分都可以作为你的起点。 基于群组、社交图、时间和地点以及类似的模式的用户活动集群往往在广泛的行为分析用例中非常有用。 随着时间的推移,你可能仍然希望对这些用例进行调整,使其更加精确,以反映你自己的组织的需求和模式。
与任何分析技术一样,随着时间的推移,随着环境的变化,必然会影响分析的准确性和相关性,所以需要进行调整。 因此,我们将再次重申,请为你的程序配备足够多的人员来管理警报并确保阈值在信号和噪声之间的那条细线上调整的重要性。
在处理已知风险的数据护栏和执行授权使用策略的数据行为分析之间,利用这些新方法将数据安全带入了现代。