数据安全技术和市场的学习-数据安全学习

前言

数据安全，从本质上来说，几乎是所有安全产品的终极防护目标。从广义来讲，大部分攻击行为，都和数据有关。例如“勒索病毒”，它最初是利用系统漏洞攻入，找到硬盘上的重要数据并加密，最终目是收取“解密费”。从这个角度看，不论是网络安全产品，还是数据安全产品，最终目标都是为了保护用户的数据安全。

数据安全是如此重要，然而却又如此复杂。因为技术的复杂性，以及和业务结合的复杂性，过去十几年一直没有占据安全市场的主要比例。这种情况现在发生了一些改变，或者说迎来了契机——从国内外近年来数据安全事件频发的形势、数据作为生产要素的新的认知、以及立法的密集程度，可以预测到数据安全市场未来会占据通用安全市场越来越多的份额，也会以更快的增长速度持续增长。

1. 数据安全市场整体情况

规模

按照2019年数据看，根据海外市场研究机构VMR统计，全球数据安全市场规模约为173.8亿美元，2019-2025之间预测该市场年复合增长率约为17.35%。根据国内机构统计，2019年我国数据安全市场规模仅为38亿人民币元，仅占全球数据安全市场规模的3.4%。相比较于中国安全整体市场占全球份额7%的比例，数据安全市场的比例也是偏低的。

增速

看看市场增速整体情况，全球网络安全市场的年复合增长率为9.7%，数据安全的年复合增长率约为17.35%，说明数据安全市场的增速远大于平均安全市场增速。

基础投资下的高增长预期

另外，从基础设施投资角度看， IDC预测中国数据量增速最为迅猛，预计2025年将增至48.6ZB，占全球数据圈的27.8％，成为全球最大的数据圈。那么如果从投资角度看，中国数据安全市场的份额理论上应在2025年占到全球的27.8，而现在仅为3.4%，这里面也有很大的增长空间。

从上可分析，未来中国数据安全市场容量有巨大的增长空间。如果以2025年作为时间节点来推测，按照全球年复合增长率约为17.35%推测，全球在2025年数据安全市场规模会达到532.63亿美元；按照中国27.8%的数据总量占比折算，国内2025年的数据安全市场理论上应该达到148亿美元。今年已经是2022年了，按照这个推测，未来5年，数据安全市场会形成一个千亿人民币级别的子市场。

查阅了一些其他机构统计的数据和分析，大致基本吻合。不过，实际上需要考虑到中美安全市场大概3年的时间差，以及基础设施投资后业务上线的时间周期，整体打一个7折来估算，2025年国内数据安全市场大致应该是103亿美元左右总盘子，折合人民币600亿人民币左右。

2. 数据安全立法情况

国内外主要相关法律法规情况如下：

美国：《加州消费者隐私法案（CCPA）》，2022年4月；
欧盟：《通用数据保护条例（GDPR）》，2018年5月；
日本：Act on the Protection of Personal Information,“APPI”)，2003年5月；
中国：《中华人民共和国数据安全法》，2021年6月；《中华人民共和国个人信息保护法》，2021年4月；

国外数据安全相关立法，主要以保护个人数据隐私安全为主；国内的两部法律，除了保护个人，还有保护国家数据安全的要求。

有了顶层立法，各主要行业随后跟进落地本行业相应的技术规范，如金融行业陆续发布了《个人金融信息保护技术规范》、《金融数据安全数据安全分级指南》、《金融数据安全数据生命周期安全规范》，其他行业如运营商、政府、证券、医疗也陆续发布了对应的行业规范。

按照国内安全相关立法到落地的节奏，一般是先“初稿征询意见”->“经过1年左右的公示，正式颁布”->“各行业跟进，指定对应的技术规范和执行细则”->“产品和检查措施落地”->“市场爆发”。

目前数据安全市场中的新需求部分“隐私保护”“数据分级”“大数据安全利用”这几块，还处于“各行业跟进，相关技术规范和执行细则落地”这个阶段。因为数据安全涉及面比较多，在这个阶段还是比较需要严谨的，具体是需要一些实际的探索和讨论，以及典型案例的实际运作探索，最终形成明确的完善的落地执行细则这样。

举例来说，比如一个互联网交通企业的数据安全，可能会涉及交通、金融、公安、税务等各个部门，技术上会涉及传统数据库、大数据、隐私计算等等，地域上可能会跨多个省行政区域甚至国际区域，要做数据审查，不论从监管的协调，还是技术的成熟度，都具备很多未确定的需要探索的环节，因此这个阶段我估计时间会比较久一些。

通读数据安全法，核心点主要有如下几个：

(1) 职能角色：网信办是总体协调部门，负责统筹协调网络数据安全和相关监管工作；工业、电信、交通、金融、自然资源、卫生健康、教育、科技等主管部门承担本行业、本领域数据安全监管职责；公安机关、国家安全机关等依照本法和有关法律、行政法规的规定，在各自职责范围内承担数据安全监管职责；

(2) 制度：国家建立数据分类分级保护制度——这也是目前很多数据安全分级产品的产生背景；国家建立数据安全审查制度，对影响或者可能影响国家安全的数据处理活动进行国家安全审查——这也是去年滴滴、BOSS直聘等数据审查的落地头几个企业案例的法律背景。

(3) 法律责任：明确了数据安全泄露事件，是可以入刑责的；如果是国家机关的数据泄露了，一把手是要被处分甚至判刑的。

另外，从立法的深层意义看，不仅仅是保护数据本身的安全。从数字社会的未来蓝图看，数据已成为了未来的生产要素之一，类似于石油这样的资源。也就是说，未来的丰富的数据资源，是可以充分的融合、挖掘，并产生新的生产力的。所以，数据安全法也体现了国家会把数据视为未来战略资源，并会高度重视以及加以保护的考虑。

3. 数据安全产品分类

从产品类型角度分类，数据安全产品大致可以分为特定目标防护产品和平台类产品两类，产品的历史大致是从90年代末到现在，一共走过了20年左右的历史。

单点防护产品（2000年—2015年）

主要是围绕着数据库保护和电子文档保护为主的产品，以特定防护目标作为防护对象，解决特定安全防护需求的问题，以单点产品为主，比如：

电子文档加密、
DLP（数据防泄漏保护）
数据脱敏
存储备份
数据库审计

代表企业有亿赛通、明朝万达、安华金和、美创、瑞数等。

平台类产品（2015年—至今）

数据安全治理（两类技术路线：一类以数据分级为主线，一类以数据生命周期为主线（DSMM））
隐私计算
数据分级等

代表企业有安恒、绿盟、奇安信、华控、蓝象、全知、美创等。

单点防护产品（老产品），共同的特征是以某个特定场景的需求为主，如针对数据库的防护产品，对于文档的加密产品，属于单点产品。这类产品产品形态硬件和软件类型大致各占一半，技术难度较高，如电子文档加密产品，技术难点在于既要加密，又要能按照权限控制分发，并且兼容各种文档格式；数据库审计，难度在于黑盒的模式下去识别各种商业数据库的协议和操作内容，以及减少因为协议的误判对业务造成的中断影响。老产品走过了十几年的时间，相对来说功能和需求场景都比较确定，组成了数据安全的基础产品族。对应的每个子领域都有标杆厂商，代表厂商有亿赛通，明朝万达，安和金华等，在这里不过多赘述。

再看一下平台类产品。

属于近年的新产品，解决的主要是近年来大数据的应用带来的新的安全问题。

举个新需求的例子。

去年颁布的《数据安全法》，第二十一条明确规定了“国家建立数据分类分级保护制度”，指的是根据数据在经济社会发展中的重要程度，以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用，对国家安全、公共利益或者个人、组织合法权益造成的危害程度，对数据实行分类分级保护。

那么需求来了，以前的保护对象是一个数据库，或者一个文档，没有分级分类的这个要求。而现在保护的对象，是一个区域、一片单位的所有的数据源，且在做防护之前，首先要梳理清楚，做好分级分类。传统数据安全产品显然不具备这样的功能。

相应的，产品的品类就诞生了——数据分级分类产品，比如全知的“数据资产地图系统“，从官网介绍可到介绍：“数据资产地图系统”是一款面向企业静态数据资产发现并进行自动化数据分类分析的数据安全产品，能够通过全面盘点数据资产、梳理标识数据，实现在复杂环境下自动化扫描并识别定位敏感业务信息。同时，通过数据的分类分级梳理，形成重要数据资产清单，并有效识别数据风险，为企业数据资产管控提供安全规范和技术依据。产品架构是这样的，如下：

1659285130_62e6ae8aed7ba7b0ad265.png!small?1659285131697

原理大致是这样：

首先通过扫描和对接各种数据源（数据库），对数据资产进行全面的扫描和采集；
然后，对数据进行自动识别和分级分类，打上标签，存入大数据系统；
最后，形成数据资产清单，全网数据资产可视

再举个例子：

某大型企业，下辖十几个子公司，数据源多样化，且分布在不同的物理位置。日常工作中，总部需要采集子公司的数据，子公司也会使用总部的数据，数据交叉环节多，管控不易，资产不清，风险不可视。

上述问题非单点类安全产品可解决，属于数据安全治理的范畴。客户需要这么一套系统：

能够有效的发现数据资产（包括子公司的），形成数据资产地图；
能够定义和识别重要数据，并打上标签；
能够面向不同的数据源，下发安全访问的策略，控制数据访问权限；
能够持续监控数据安全风险；
能够对数据风险进行溯源；

典型的产品架构如下：

1659285151_62e6ae9fd828bbadc6093.png!small?1659285152579

还有一类产品，比较新，叫做隐私计算产品。

我们知道，很多行业比如政务、医疗、金融等各行业、单位机构本身掌握大量的价值数据，在社会治理或者商业数据挖掘的需求下，是需要结合这些数据进行二次挖掘的。通俗来说，就是需要根据不同行业提供的数据源，挖掘有价值的分析结果，但是又不能把各个行业的数据都拿走。最简单的例子就是疫情分析，比如张三，去过哪些地方，密接了那些人，是否有疫情扩散的风险，需要知道这个结果，但是又要保证这些信息的隐私性，不能造成信息泄漏。

如果没有隐私计算的机制，这些行业客户不敢、不愿、也不能开放数据用于共享。所以必须要有一类产品能够作为数据交换平台，可控地将数据开放给第三方做数据挖掘分析，第三方在平台上的数据挖掘行为可监管、可审计、可追溯；原始数据不出本地，受益方只能获取审核后的价值数据。最终达到确保数据所有权和使用权的分离，可用不可见、可用不可取。帮助企业创造新的数据交易模式，合法合规、安全地对外开放数据，释放出数据的潜在价值。

隐私计算相对比较新，他主要依赖几个核心数学概念，理解了这几个概念才好理解这个产品：

联邦学习（Federated Learning）

是一种分布式机器学习技术，通俗来说，就是能得到数学模型的结果，但是却不会拿走参与的数据。比如计算出“某一类疾病的患者最喜欢去的十大场所”，需要汇总医院医疗数据和不同场所的顾客数据，进行联邦学习模型计算，进而得到这个统计结论。运算中主要是通过数学模型进行的，过程中不会拿走原始数据。

其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练，在不需要交换本地个体或样本数据的前提下，仅通过交换模型参数或中间结果的方式，构建基于虚拟融合数据下的全局模型，从而实现数据隐私保护和数据共享计算的平衡，即“数据可用不可见”、“数据不动模型动”的应用新范式。

同态加密

通俗来讲，各个数据源单位，提供的都是加密后的数据，不影响数据模型预算的结果。具体来说，同态加密是运用数学算法，对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。

比如说，数据提供方担心数据的源信息被计算平台拿走，所以采用特殊算法对原始数据进行加密，数据平台得不到原始数据，但却可以利用数学算法得到统计的结果。

可信计算环境

可信执行环境(Trusted Execution Environment, TEE)通过软硬件方法在中央处理器中构建一个安全的区域，保证其内部加载的程序和数据在机密性和完整性上得到保护。TEE是一个隔离的执行环境，为在设备上运行的受信任应用程序提供了比普通操作系统(Rich Operating System, RichOS)更高级别的安全性以及比安全元件(Secure Element, SE)更多的功能。

隐私计算产品，基本原理就是采用上面的算法，综合利用脱敏、加密等技术，为各方数据源提供一个安全、隐私的计算平台，来运行不同的数据统计模型。

这类产品的主要客户是具备多样化、跨行业、跨部门数据来源的企业或事业单位，如大数据局、医疗、安全、能源、政府等单位。另外这些年，我国也建立了多个区域性的大数据市场平台公司，各个数据源能够以商品的方式提供，在满足安全、隐私、合规的前提下，为社会生存创造数据挖掘的二次价值。

4. 数据安全产品的难点

和通用网络安全产品不同，数据产品更靠业务。数据安全产品的复杂性，主要就是基于这个原因。总的来说，因为数据安全产品更靠近客户的核心业务，因此产品的准确度会比通用安全产品的要求更高。因为一个错误的规则，很可能造成客户业务灾难性的中断，或者核心数据的破坏。

另外数据安全产品的实施成本特别高，主要是因为和业务紧耦合的缘故，开发、部署阶段，会涉及大量的对接、修改以及后续运维工作。在商业角度，这种情况就不是个“好产品”，因为一个客户一个特殊需求，无法实现批量复制和快速售卖，短期做大困难。

还有个问题就是风险高，责任大。数据安全产品一旦出问题，造成客户数据丢失、业务中断、数据无法解密，这些情况都是客户难以忍受的，也具有极高的责任风险。所以，技术不精的厂商，不是很敢碰这类产品。

另外还有一个非技术因素的难点，就是各部门的数据要打通，而数据都是各个部门的核心业务，这意味着在组织架构上需要调整在先。如果没有重构组织架构，数据安全产品的落地阻力会非常大。而重构组织架构，意味着岗位的调整，在现实工作中，这个难度难比天高，需要较长一段时间来完成。

具体来说，难点主要有如下：

(1) 对接数据源难

各类商业数据库因为是闭源产品，协议黑盒，版本多变，缺乏统一的标准，因此在对接各类数据源的时候，协议解析这块特别耗费人力，难度也较大。

(2) 分类分级难

对各类数据进行分类分级，不仅仅是算法的问题，难在安全厂商根本不具备各行各业的业务知识，因此如准确何识别某一个行业的数据属于哪一级，如何分类，是需要大量的专业知识和实施成本的。

(3) 算法难

目前脱敏、隐私计算等算法还不够成熟，运行效率有限，会导致数学模型计算出来的结果不准确，在“计算”和“隐私”之间，完美的算法的平衡点很难把握，很多时候难以做到既安全又保密。

(4) 控制难

因为耦合了业务系统，因此如果要对某一个数据操作进行如“阻断”的操作，很难精准的把握住控制的时机和效果，以及误阻断对业务系统带来的灾难性后果

(5) 业务耦合复杂

因为业务耦合多，因此实施部署的时候会涉及较多的对接、修改、调整，造成软件实施和二次开发的成本巨大，产品实施周期较长

5. 总结

数据安全产品，以高于网络安全产品的增速，在五年内会增长到600亿左右的市场份额，这几乎是2021年全部安全产品的总盘子，未来在数据安全领域一定会有新的颠覆性的巨头企业出现。

数据安全，不仅仅是产品问题，还结合了组织、流程、人，未来的产品趋势是产品+平台+运营，综合的解决方案模式会成为市场的主流。

虽然有诸多难点，但是数字社会的构建势不可挡的过程，对数据安全的远景我是非常的看好。人类社会发展到这里，不采用数字治理的方式，是无法进行新一次科技革命的，这是时代的内需要求，不需要怀疑。而技术问题，会随着时间的推移，预测未来3～5年间将会大部分解决掉；组织架构问题，也会随着时间逐步解决。那么可期待的市场爆发高点，会出现在未来3年后的时间点，只需要等待即可。

国家已经明确将数据作为战略资源的高度提出，相关法律法规近一年来密集的落地。相比之下，安全企业对数据安全的认知程度还需要跟上国家的高度，加大投入，更进一步。