数据流通
数据流通是指在数据供方和需方之间按照一定流通规则进行的以数据为对象的行为。数据流通在技术实现上有诸多需求,主要在数据安全、质量保障、权益分配、追溯审计和透明度等方面。
数据流通区块链在保证数据流通环节安全高效的基础上,具有以下优势:不缓存数据、保护个人隐私、保护数据版权、可追溯数据来源且保证不会被篡改、有效遏制造假等。其去中心化的共识架构有效解决了数据交换和流通环节中数据归属不明的痛点。作为一个有安全保障的数据流通平台,旨在支持数据所有权不变的情况下实现数据使用权的可信流通共享。
安全屋实现数据流通
UCloud安全屋是一个数据流通平台,它真正意义上实现了数据所有权和数据使用权的分离,确保数据流通过程安全可控不泄露 ,打破数据垄断,让数据流通便捷安全,实现数据民主化,让所有者安心、使用者开心。
安全屋采用区块链技术实现去中心化方案,精准连接了数据提供方、数据源需求方、算法提供方等,聚合不同类型的算法,并充当数据方、算法方角色,使用可信第三方(政府、第三方机构)保存所有区块链记录,起到信用背书的作用。
数据流通关键技术
同态加密
同态加密是密码学界广泛研究的重要课题,Ron Rivest等在1978年以银行为应用背景提出这一概念。同态加密是指对加密数据进行处理得到一个输出,将此输出进行解密,其结果与用同一方法处理但未加密原始数据得到的输出结果一致。
在数据流通过程中的委托计算场景中,数据持有方本身算力有限,需委托第三方进行大规模数据统计分析计算,但其数据又不能透露给第三方,因此必须对敏感数据进行加密保护。使用同态加密技术的委托计算场景涉及两类角色——数据持有方和数据处理方,技术方案示意图如下所示:
数据持有方拥有原始数据并选择需要保护的敏感属性。在本地生成公私钥对后,使用生成的用户公钥,同态加密原始数据中的敏感属性,得到密文文件。之后,数据持有方将密文文件发送给数据处理方,数据处理方对密文文件进行同态操作,在明文数据信息不可知的情况下,生成密文统计结果,此结果和明文状态直接加密得到的处理结果一致。数据处理方得到密文统计结果后,将其返回给数据持有方。数据持有方接收到处理后的密文统计结果,使用用户私钥解密,获取明文统计结果。
零知识证明
在分布式账本中,需满足群体共识特性,即各方通过共识机制确认数据的合法性,而前提是包括个人或机构隐私数据在内的所有数据对所有方透明可见,因此需要对共识数据进行处理。零知识证明可提升数据合法性的隐性共识,让验证方既不知道数据具体内容,又能确认该内容是否有效或合法,应用包括交易有效性证明、供应链金融、数据防伪溯源等。
在数据流通过程中的分布式财务数据共享场景中,各企业的财务数据上链存储,允许跨组织间进行标准财务记录,改进财务报告并降低审计成本。基于分布式的财务数据记录,按照一定的标准与传统系统有互操作性,能改进从财务报告到审计之间的所有流程。
技术方案示意图如下:
在分布式账本中,企业需将财务数据加密上链存储,包括资产负债表、上税金额等,同时生成零知识证明π。π能证明:资产负债表中资产合计及负债与所有者权益合计等于对应各项相加总和;企业上税金额等于企业利润总额乘以所得税税率金额。验证方计算并验证π是否成立,验证过程中不泄露企业数据。若零知识证明成立,说明企业的财务数据正确可信,而且验证过程需保证只有数据持有企业能生成此零知识证明。
群签名
群签名技术是一种允许一个群体中的任意成员,以匿名方式代表整个群体对消息进行签名,并可公开验证的机制。在云环境中,用户依赖CSP存储数据且没有本地数据副本,因此确保数据正确地存储在云中显得尤其重要。为了减少因周期性检查而带来的在线负担并且节省计算资源,引入TPA代替用户检查外包数据的完整性,希望通过TPA来保护数据隐私,并确保用户数据不会泄露给TPA。
系统模型如图所示,包括四个主体:用户(Client)、云存储服务器(CS,Cloud Server)、云组合服务器(CCS,Cloud Combiner Server)和第三方审计者(TPA,Third Party Auditor)。此方案可实现以下功能:正确性、安全有效的用户撤销、大数据隐私保护、身份隐私保护、多用户更新、认证、大群组的支持。
环签名
通常环签名方案由密钥生成、签名、签名验证部分构成,一个环签名方案必须满足无条件匿名性、正确性、不可伪造性的性质。
云服务提供商对用户进行分组管理。环签名中,签名者参与一个用户组,这些用户组中的用户构成一个环。如果环签名得到验证,则可以说明签名者来自一定范围的群体。环中的用户签名时,用自己的私钥和环中其他实体的公钥签名,但不需要其他实体的参与,更不需要得到其他实体的允许。
这比其它基于合作方式的签名要灵活得多,如群签名需要其它实体的共同协作,而且群中有管理者,如果管理者权限过大,则可能会暴露用户的身份。
差分隐私
差分隐私的基本思想是对原始数据、对原始数据的转换或是对统计结果添加噪音来达到隐私保护效果。相比于传统的隐私保护模型,差分隐私具有以下两个优点:
- 不关心攻击者所具有的背景知识;
- 具有严谨的统计学模型,能够提供可量化的隐私保证。
按照隐私保护技术所处数据流通环节的不同,差分隐私技术可分为以下两类:
- 中心化差分隐私技术;
- 本地化差分隐私技术。
数据采集差分保护
由于移动设备功能的不断强大,数据收集者可以将数据采集的任务分配给不同用户,然而这种数据采集一般与个人行为信息相关,因此当用户参与数据采集时,不可避免地存在泄露个人敏感信息的风险。
如图所示,每个用户首先对数据进行隐私化处理,再将处理后的数据发送给数据收集者,数据收集者对采集到的数据进行统计,以得到有效的分析结果,在对数据进行统计分析的同时,保证个体的隐私信息不被泄露。
数据输出差分隐私保护技术方案
面向公众公开发布数据或数据本身非常敏感时,如果直接向使用者输出数据,可能带来严重的隐私泄露问题,因此输出数据时,应集中利用差分隐私技术对数据进行保护。如图所示,服务端在将数据提供给数据使用方之前,需用差分技术对数据集中进行扰动处理,添加拉普拉斯噪声或指数噪声,保证数据可用性的同时,确保个体的隐私信息不被泄露。
隐私保护数据共享
数据共享中存在一个重要的课题,就是如何在共享中避免用户数据隐私的泄露。隐私保护的数据共享技术应运而生,其目标就是在保护数据隐私的前提下,尽可能保留具有挖掘价值的信息。
在隐私保护的数据共享中,存在数据提供者和数据挖掘平台两种角色。多个数据提供者对数据进行隐私保护处理之后,把数据输出至数据挖掘平台,在该平台上完成数据融合、分析、挖掘。
隐私保护的数据共享主要分为两个方向:隐私保护的数据处理和基于安全环境的数据共享。
隐私保护的数据处理
目标是在保护数据隐私的前提下,尽可能的保留数据挖掘的信息。
基于安全环境的数据共享
在数据挖掘平台方构建一个各方都信任的安全计算环境,安全环境保证参与计算的敏感数据不会输出并且无法被外部进程窃取。各个数据提供者把数据进行加密后,传输到数据挖掘平台,然后在安全计算环境中,对数据进行解密,最后进行数据的分析与建模。
总结
法律法规均对大数据的安全提出了严格要求,在发展大数据业务之前,必须建立完善的大数据安全管控体系,实现大数据从采集、传输、存储、分析、发布等全生命周期的安全风险管控,避免因大数据被误用、滥用或泄露带来的风险。
同态、零知识证明、群签名、环签名、差分隐私保护、隐私保护数据共享等,是目前数据安全领域、数据流通领域的研究热点,随着各项技术发展及在越来越多的场景中落地应用,数据流通在实际应用场景中将发挥更大的价值。
UCloud 基于安全管理、区块链及多方安全计算的安全屋平台,实现了在原始数据对除数据持有者外,其他方均不可见的情况下,经过协同计算对数据进行联合分析之后,输出需求方所需的分析结果,确保数据在安全的前提下流通共享。
本文内容部分来源于《数据流通关键技术白皮书》