浅谈大数据平台安全风险与建设-安全风险防控体系建设

大数据平台安全伴随着大数据平台而生。随着互联网和大数据应用的普及，新闻头条上发布的数据泄露、滥用、诈骗层出不穷，引发了一系列发人深思的社会事件和问题。

本文主要分三个部分：

大数据发现面临的安全挑战
大厂大数据安全实践
总结

本文以大数据发展面临的安全挑战开篇。

一、大数据发现面临的安全挑战

(1)传统安全保护手段失效：大数据应用使用开放的分布式计算和存储框架来提供海量数据分布式存储和计算服务。新技术、新架构、新型攻击手段带来新的挑战，使得传统的安全保护手段暴露出严重的不足。

(2)大数据平台安全机制缺陷：Hadoop生态架构在设计初期对用户身份鉴别、访问控制、密钥管理、安全审计等方面考虑较少，并且大数据应用中多采用第三方开源组件，对这些组件缺乏严格的测试管理和安全认证。

(3)数据应用访问控制难度大：有在大厂工作经验的人都知道，数据应用有报表类、运营类、取数类等等，各类数据应用通常要为不同身份和目的的用户提供服务，在身份鉴别、访问控制、审计溯源上都带来了巨大的挑战。

(4)数据量大、潜在价值高，极易成为攻击目标：大数据平台处理环节多，需要针对数据采集、传输、存储、处理、交换和销毁等生命周期各阶段进行安全防护，在不同阶段采取适合的安全技术保护机制。

(5)数据滥用或伪脱敏风险增长：随着数据挖掘、机器学习、人工智能等学科领域技术研究的深入，数据滥用情况加剧。并且很多公开说明脱敏或者匿名处理的数据，有可能分析出对应的真实明细信息。

(6)数据所有者权限问题突显：数据共享和流通是大数据发展的关键，但是在很多大数据应用场景中，存在数据所有权不清晰的情况，例如：数据挖掘分析人员会对原始数据进行处理，分析出新的数据，这些数据的所有权到底属于原始数据所有方还是数据挖掘方，这个问题还很多场景下还没有定论。

(7)大数据安全法规标准不完善：不论是在公司内部还是国家范围内，大数据应用的使用促进了经济的发展，数据价值的最大化。然而要推进大数据健康发展，要加强政策、监管、法律的统筹协调，加快法律法规建设。

二、大厂大数据安全实践

看到上述如此多的挑战。大家是不是对大厂的大数据安全实践充满了好奇，废话不多说，下面直插主题：

2.1阿里云大数据安全管控体系架构

核心安全措施：

访问控制和隔离：实施多租户访问隔离措施，数据安全分类分级划分，支持基于标签的强制访问控制，提供基于ACL的数据访问授权模型，提供数据视图的访问控制。
敏感信息保护：提供数据脱敏和加密功能。
密钥管理和鉴权：提供统一的密钥管理和访问鉴权服务，支持多因素鉴权模型。
安全审计：提供数据访问审计日志。
数据血缘：支持数据血缘追踪，可跟踪数据流向。
审批和预警：支持数据导出控制，支持人工审批或系统预警;提供数据质量保障系统，对交换的数据进行数据质量评测和监控预警。
数据生命周期管理：提供从采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的技术和管理措施

2.2蚂蚁金服大数据安全防护体系

核心安全措施：

持续进行数据安全顶层治理：数据安全策略à数据安全管理à数据安全执行。
建立健全数据安全制度流程：确保在业务运营过程中的数据安全风险可控，数据使用有章可循。
建立数据安全内控体系和审计监督机制：通过统一身份管理、统一健全、统一日志等方式建立体系化的审计监督机制，利用大数据风险分析技术，建立数据使用异常分析控制，及时识别业务运营过程中的数据使用风险。
建立以数据为中心的风险管理体系：从数据、人员、产品三个方面重点进行风险管理体系建设。数据方面，覆盖采集、分析处理、输出等多个大学虎踞管理重点;人员方面，建立了信息安全评分及员工行为风险量化机制，准确识别和管控员工使用、处理数据过程中的各维度风险;产品方面，对用户隐私进行全方位保护。
构建生态数据安全赋能产品，联合生态伙伴，共同提升生态数据安全能力：在与合作伙伴合作的过程中，建立一套完整的合作伙伴数据安全风险识别机制，通过敏感数据检测、调用历史基线偏离、离群行为等大数据异常检测技术，实现对生态或作伙伴的敏感信息泄露等风险的监控。也通过差分隐私和K匿名等技术措施提升个人隐私和数据安全保障能力。并将该能力产品化赋能生态企业。

2.3中国移动大数据安全保障体系

核心安全措施：

安全策略体系：从顶层设计层面明确安全保障工作总体要求及方向指南。
安全管理体系：通过管理制度建设，明确运营方安全主体责任，落实安全管理措施。
安全运营体系：通过定义运营角色，明确运营机构安全职责，实现对大数据业务及数据的全流程、全周期安全管理。
安全技术体系：公司开展大数据安全防护建设相关要求和实施方法，体系设计涵盖数据流转各环节数据安全防护通用技术要求、大数据平台各类基础设施及应用组件安全基线配置能力要求等。
安全合规评测体系：包括安全运营管理合规评测和安全技术合规评测方法、评测手段和评测流程。
大数据服务支撑体系：基于大数据资源为信息安全保障提供支撑服务，开展大数据在安全领域的研究及推广应用，为公司信息安全治理提供新型技术手段，并支撑对外安全服务，实现数据增值。

2.4IBM Security Guardium 数据安全保护体系

核心安全措施：

对来自各种应用和用户的hadoop和nosql的数据访问进行全面实时监控。在应用或用户违反安全策略时进行实时预警并在SIEM仪表盘中显示警告信息。

通过审计和报告方式来满足合规要求并能提供法律所要求的合规证据。
对高流量、高速度、多类型的大数据进行全面的变更管理。
对企业的全部数据(数据库、应用、文件、大数据)等进行集中式、自动化的管控。
通过加密、屏蔽、掩码等方式保护敏感数据。
评估和解决大数据环境中的漏洞，保证大数据系统自身是安全的。

2.5Microsoft大数据安全框架

核心安全措施：

1)网络安全：企业管理员可在虚拟网络 (VNET) 中创建群集，并使用网络安全组 (NSG) 限制对虚拟网络的访问。只有入站 NSG 规则中允许的 IP 地址才能与 HDInsight 群集通信。

2)身份认证：提供基于 Active Directory 的身份验证、多用户支持和基于角色的访问控制。

3)授权：管理员可以配置基于角色的访问控制 (RBAC) 来确保ApacheHive、HBase和 Kafka的安全性，只需使用 Apache Ranger 中的这些插件即可。可以通过配置 RBAC 策略将权限与组织中的角色相关联。

4)审核：管理员可以查看和报告对 HDInsight 群集资源与数据的所有访问，跟踪对资源的未经授权或非故意的访问。管理员还可以查看和报告对在 Apache Ranger 支持的终结点中创建的访问控制策略进行的所有更改。

5)加密：应对数据加密。

三、结束语：

综上所述，结合笔者自己的实践，大数据平台安全建设应根据平台规模、大数据安全建设人员投入数量、历史案件比例等因素做调整，最合适的是才是最好的。

最基本需要具备：权限管理、访问控制、审计溯源、下载管控;
进阶需要具备：账号体系管理、资源管理(资源呈现与检索)、数据管理(分类分级、脱敏、加密、血缘、标签和敏感数据识别等);
高阶需要具备：统一配置管理、统一运维管理、统一告警管理、大数据代码审计产品。

上述仅代表个人当前意见，如有异议可以多沟通多交流。