RSAConference2021将于旧金山时间5月17日召开,这将是RSA大会有史以来第一次采用网络虚拟会议的形式举办。大会的Innovation Sandbox(沙盒)大赛作为“安全圈的奥斯卡”,每年都备受瞩目,成为全球网络安全行业技术创新和投资的风向标。
前不久,RSA官方宣布了最终入选创新沙盒的十强初创公司:WABBI、Satori、Abnormal Security、Apiiro、Axis Security、Cape Privacy、Deduce、Open Raven、STARATA、WIZ。
绿盟君将通过背景介绍、产品特点、点评分析等,带大家了解入围的十强厂商。今天,我们要介绍的是厂商是:Open Raven。
一、公司介绍
Open Raven成立于2019年,该公司致力于协助用户轻松管理存储于亚马逊云上的电子数据,帮助用户避免云上数据泄露事件发生,并协助用户实现数据合规性。根据LinkedIn信息显示,该公司位于洛杉矶。Dave Cole是该公司的联合创始人兼CEO,他曾在CrowdStrike和Tenable工作过的;公司联合创始人之一Mark Curphey担任该公司首席产品官,他是软件安全公司SourceClear的前CEO和微软公司前高管。在Cole和Curphey带领下,Open Raven已于2020年2月在由Upfront Ventures领投的种子轮融资中获得410万美元;并于同年在6月在由Kleiner Perkins领投的A轮融资中获得1500万美元。
Open Raven公司产品主打目标:
• 协助用户全面探查云上所拥有数据;
• 向用户全面直观展示每项数据存储位置;
• 自动化扫描分类用户数据,标识出敏感和高风险数据;
• 及时发现数据泄露事件,自动报警异常事件;
• 简化及监督用户数据流动合规性。
二、 背景介绍
数据通常被称为“新石油”,因为它是当前推动全球经济不断增长的新型原材料。数据的流动与使用如何实现监管,本身就具有不小的挑战性,而云计算的爆炸式发展给数据治理的挑战增加了更多的复杂性。这使得各公司容易出现数据治理盲点,从而导致客户详细信息、敏感财务信息、健康医疗数据、选举数据、甚至刑事调查信息的泄露。由于《加州消费者隐私法案》(CCPA)和欧洲《通用数据保护条例》(GDPR)等措施带来的新规定,对数据的不当处理和数据泄露的处罚也在飙升。根据国际律师事务所DLA Piper的调查显示,GDPR生效以来,在监管机构的实施下,全球各公司/组织因侵犯用户数据隐私而被罚款的金额超过了3.301亿美元。
从普通人的视角来看,数据泄露的最大风险来自于外部攻击者。然而实际情况却是:大部分数据泄露事件都是由于内部数据处理不当造成的,如错误配置的数据库、备份、端点和服务。事实上,就暴露的数据数量而言,2019年因意外原因导致的数据泄露总量超过了60亿条,超过了因黑客蓄意入侵导致的数据泄露总量。
当前防止数据防泄漏的手段分为两种:一种是通过制定合理的管理措施进行数据安全防护,严格限制数据的存储、访问和使用方式,优点是技术门槛低,缺点是管理措施必须随相关政策法规的变化及时调整,业务和数据庞杂时容易出现管理盲点;另一种是通过机密计算、安全多方计算、联邦学习等技术手段实现数据的“可用不可见”,从源头阻止数据泄露,优点是技术与政策法规无关,可一劳永逸解决数据泄露问题,缺点是技术门槛高、不易实现。
数据安全是近年RSA大会创新沙盒的热点,如2018年冠军BigID、2020年冠军Securiti.ai以及今年的Open Raven,均是通过协助企业提升数据安全管理能力,进而来阻止数据泄露事件发生。所不同的是,BigID关注的是企业对个人隐私数据的管理和合规性检查;Securiti.ai关注通过People Data Graph实现分散的个人数据与数据所有者的链接,并提供分别满足CCPA、GDPR和LGPD(巴西隐私法规)的合规性方案。
Open Raven除了关注企业个人隐私数据安全,更关注企业云上数据安全。Open Raven认为,既然数据泄露背后的因素之一是企业对数据的不当保护措施,那么最直接有效的预防方法就是采取合适的措施来增强数据本身的安全性。要想实现上述目标,最首要的工作就是知道企业中有什么类型的数据、有多少数据、这些数据存储在哪里、以及这些数据当前是怎么保护的?Open Raven通过技术手段回答了上述几个问题,从源头上阻止数据泄露。
三、 公司核心产品服务
Open Raven平台使用从API到网络扫描的各种技术,提供了云和本地数据存储的自动映射。其中的核心服务是Open Raven的DMAP指纹识别服务,该服务旨在识别哪些资产作为数据存储在运行使用。DMAP使用基于随机森林决策树的机器学习算法来精确识别常用的数据存储服务,如ElasticSearch、Postgres、MongoDB等,以便更好地识别和管理这些存储服务。
1 DMAP架构
参考Open Raven发布的白皮书《Building Open Raven’s Data Store Fingerprinting (DMAP)》,DMAP的体系架构如下图所示。
DMAP是一个以云为中心的分布式体系结构。DMAP-ML运行在Open Raven管理集群(Asgard)中,而DMAP运行在客户Open Raven 集群(Odin)中。对于希望映射其企业本地网络(非云部署)的用户,DMAP-Scanner在得到授权后,在本地运行并将处理结果反馈给DMAP。
2 模型建立
当建立决策树模型时,指纹被转换为机器学习特征,然后输入到训练模型中。每个指纹都会产生一个或多个机器学习特征,如下图所示。
对每个被录入指纹的应用程序,重复上述操作,并最终进行分割测试,以确保识别的准确性。
3 指纹录入
指纹录入是Open Raven监督训练的主要方法。基于云的采集流程如下图所示。该流程利用Amazon Web Service (AWS)的无服务计算引擎Fargate与容器运行时Docker,允许Open Raven快速启动应用基础设施进行指纹采集,并在指纹录入完毕时缩小集群规模。
AWS Fargate使Open Raven能够在不需要固定基础设施的情况下动态启动数千个服务。再加上绝大多数现有的数据存储应用程序都可以Docker镜像交付,因此很容易生成样本数据。
4 用户反馈改进
虽然Open Raven的初始数据集和模型基于指纹录入,但Open Raven的工作流设计允许(并鼓励)用户反馈和细化预测结果,“反馈-改进”流程如下图所示。当应用程序预测结果显示给用户时,若预测结果不准确,用户可以根据自己的实际情况否定预测结果,并如实反馈给DMAP-ML。该反馈结果将实时集成到DMAP-ML中的Open Raven DMAP预测引擎中,从而使得DMAP利用新获得的知识提高将来的预测准确率。
用户“反馈-改进”流程既增强了Open Raven识别已知应用程序的能力,特别是识别已知应用程序的尚未发行版本。这使得Open Raven能够在用户收到识别结果并提供反馈时,可以实时了解最新的软件和应用程序。
四、 产品功能
1 数据资产可视化
Open Raven通过全局3D视图用户显示每个AWS账户和资产情况,不同资产类型有不同的地图图标表示;单击单个资产的图标以查看其属性;Open Raven按其物理位置对资产进行分组。可视化窗口边缘部分显示连接到基础设施的 IP 地址。
Open Raven允许通过以下几种筛选方式筛选资产:
• 地理位置;
• 资产类型;
• 安全配置。
按安全配置进行筛选时,资产筛选结果可分类为:
• 对互联网开放/对互联网关闭;
• 加密/未加密;
• 备份/未备份。
可以可视化AWS Virtual Private Clouds(VPC)之间的网络连接。单击云图标时,可以看到有关:
• 请求者;
• 接受者;
• 连接 ID。
2 自动化敏感数据扫描
数据扫描功能使用机器学习和模式匹配来识别和分类AWS S3存储桶中的敏感数据。
使用数据扫描功能,可以发现如下敏感数据,例如:
• 敏感个人信息
• 开发人员机密和凭据
• 财务和健康数据。
Open Raven配置了一些默认数据类,用户也可以自行创建数据类。数据扫描作业按照用户指定的规则运行,按预定周期扫描目标资产组中的特定数据类别。
数据类是Open Raven在数据扫描期间着重寻找的内容,是敏感数据类型,例如:姓名、邮编地址、社会保险号码、SSH密钥、信用卡号。其中默认数据类型中的个人数据类,涵盖了目前世界上主要欧美及发达国家对个人数据类的分类和识别方式,如下图所示。
3 依照安全策略监控资产安全
Open Raven允许用户按照策略来执行数据安全标准,通过Open Raven进行审核和监控用户的云数据资产。当发生策略违规时,将向相关用户发出告警通知,并指导用户采取行动阻止数据泄露事件。
Open Raven提供以下预构建的策略集,用户可以通过快速勾选的方式构建自己的数据安全规则,保护用户的云数据资产:
4 生成合规分析报告
用户可以根据自己的需要,选择感兴趣的数据安全策略项,并导出该项策略的合规性报告。
五、 总结
当前全球各国及组织均在紧锣密鼓地制定数据安全相关法案法规,违规惩罚力度也在不断扩大。在此形势下,大小互联网公司均人人自危,争相检查各自数据安全保护现状,以避免因数据泄露事件带来自身形象损失及罚款资金损失。此时Open Raven公司及时发现并抓住用户痛点,以自身优势来协助用户解决数据资产清查及合规性检查等事宜,满足用户刚性需求,解决用户痛点问题,使得公司快速发展应是大势所趋。
可以看出,Open Raven的宗旨是让用户全面、透彻的了解自己存储于云服务器中的数据资产存储情况(如存储于哪里?用的何种存储服务?)和安全现状(有多少敏感数据?是否密文存储?是否有备份?何人、何设备可以访问该数据?),给用户一个直观的扫描和呈现,目的是协助用户从管理角度实现数据资产安全,并实施数据资产定期合规性检查,但是并不向用户直接输出数据安全防御技术和数据安全共享技术(如数据脱敏、差分隐私、安全多方计算等)。
其最核心的技术创新点:1、利用随机森林决策树算法来识别用户数据存储所采用的应用和服务,即DMAP服务;2、实施监控用户数据资产流动及访问情况,及时告警威胁事件,协助用户阻止数据泄露事件发生。
功能创新点在于:1、利用3D技术图形化展示用户云上所属账户、数据资产类型、存储位置,便于用户管理;2、汇总当前基本以及常用的数据安全策略,并进行合理分类,供用户直接调用、学习;3、协助用户分析数据资产合规性,并给出分析报告和改进意见。
以上是Open Raven的优势及亮点所在,但个人感觉,劣势也很明显:目前只能分析亚马逊云上的用户数据资产,无法覆盖其他云系统。从Open Raven官网来看,已将其他云系统作为攻坚目标,希望其能早日实现多种云上数据资产发现及分析。另外,隐私保护法规越来越严的情况下,用户也关心自己的数据安全保护策略是否可以满足全部或某一个特定法规的数据安全要求。若不满足,如何改进?希望Open Raven早日考虑该诉求,系统性地为用户的数据安全建设提供检查及建议,这样或许能招揽来更多用户及投资者。