一、外部数据使用历史
1、外部数据的定义
外部数据指为满足业务发展从本行外部获取的支持客户营销、风险管控、管理决策、产品创新、运营优化以及监管合规的数据、分析报告及资讯信息等,包括但不限于采购、合作等方式获取的数据。常见的外部数据的主要类型有工商、海关、环保、公安等政府数据,移动、联通、电信等运营商数据,以及万德、大智慧等一些数据公司的数据。
2015年之前,建行各业务条线已经开始在业务层面上使用外部数据,2015年后,建行成立中心后,开始更多地利用外部数据进行数据挖掘,做机器学习建模。
2、外部数据管理模式
2017年我行数据管理部进一步建设外部数据管理组件,采用全行集中统筹的管理模型管理外部数据。主要有三大特点:
- 一是集中管理,总行对外部数据的需求、预算、采购、费用执行、数据接入和数据共享应用全流程统一管理。
- 二是分行自主,分行区域性外部数据给予分行一定自主权,允许自行采购和费用执行。
- 三是充分共享,所有外部数据(包括区域性外部数据)统一接入外部数据管理组件,全行共享。
3、外部数据引入和应用模式
目前我行外部数据的接入和应用模式分别有三种。接入的三种模式分别为互联网、网络专线以及本地化部署到数仓中。外部数据应用的三种方式包括,第一种是实时联机查询,是当前主流的应用方式,即外部数据管理组件发布外部数据服务,业务组件在取得授权的情况下,实时调用服务,基本都是嵌入业务流程或者模型中伴随业务办理调用。第二种是批量数据传输,一般适用于批量的一些企业公开数据,根据下游业务组件用数需求,通过数据仓库按照制定频率推送或者增量数据表。第三种是平台自助查询,主要面向业务人员,业务人员登录外部数据管理平台,可通过平台查询整合后的企业公开数据。
4、外部数据嵌入信用卡业务全流程中
自2015年后,外部数据在大数据领域被大量应用,在我行多个业务条线、多个产品及多个场景均发挥巨大作用。以信用卡业务为例,外部数据被应用到信用卡生命周期的六个环节中:预审批、客户识别、伪冒欺诈、审批、交叉销售、风险预警。我们利用外部数据产出大量的规则或模型,包括申请反欺诈、交易反欺诈、交叉销售、提升销售模型等,这些规则或模型被广泛应用到客户的全生命周期管理中。
5、联合建模-数据融合应用
前面提到的这种外部数据的应用,更多的是单笔或者是批量的明文数据的查询或者去做一些规则或做一些判断,并没有进行复杂的融合双方数据的学习建模。自 19 年开始,我们中心开始和外界进行大量的联合建模。联合建模是银行通过机器学习建模方式引入外部数据、探索新产品、新场景应用的重要方式,通过与政府机构、公共事业、运营商、头部电商等可信外部数据源进行联合数据探索和数据挖掘,确保双方数据安全、开展模型研发,创新数据价值变现的一种外部数据应用新模式。
联合建模主要有两种方式,第一种方式,我行提供样本,首先对 ID 去进行加密,加工标签以及部分x变量,然后由我行的联合建模人员携带数据到对方提供的一台沙盒环境进行建模,对方也会把他们的数据加载到这个沙盒环境中。第二种方式是对方来我们的环境进行建模,一般是集团内较多。最早在2019年,我行与京东、人社部做过两次联合建模,与京东的合作是我们带着建行的标签以及部分x变量到京东的环境,利用京东提供的客户消费支付、信贷行为等等数据,构建了一个针对潜在客户的融信商务模型,通过这个模型对小微企业组、个体工商户、年轻客群还有大众客群去进行信用评估。与人社部合作的模型主要是依靠人社部提供的企业、个人的社保缴费信息等数据,做社保评信用评分整体解决方案,解决方案里面包括客户准入模型,预警规则模型,测额模型等等。总体来说联合建模为我行创造了较大的数据价值和业务价值。
6、2022联合建模整体情况
以2022 年为例,尽管经历了上海封控,我们依然借助于联合建模技术,产出了大量业务成果。我们支持总行的普惠部、数字化工厂,乡村金融部、个人金融部等多个业务部门以及浙江分行、湖北分行等相关分行,开展联合建模项目,共研发5个普惠金融模型,后续均投产使用。我们的合作方包括像银联、美团等一些头部企业,还有像地方金融局,地方的数据服务平台等单位。其中我们跟银联合作研发的商户云贷-银联版模型是去年4月23号上线的,截止到去年的11月末,授信客户数达到近21万户,授信金额超过800亿元,贷款余额近500亿。另外我们支持乡村金融户做的裕农快贷=农户商户贷模型和支持浙江分行做的浙信云代产品模型,均在去年四季度上线投入使用,总体硕果累累。
二、隐私计算早期探索(2020-2021)
1、隐私计算技术应用背景
2020年国家战略发展要求和企业自身的发展需求促成了隐私计算技术的出现。隐私计算为建行主要带来了三点好处。
第一点隐私计算是一个创新机制,实现数据不动价值动,该方式实际帮助建行提高了数据处理的安全性。因为联合建模过程中,明文数据要出域,因此数据在行内经历相对比较繁琐的审批过程,通过隐私计算避免这种事情发生,有助于提高我们数据处理的安全性。
第二点是联合数据应用遵循最小必要价值,避免过度使用个人信息,隐私计算通过对算子和数据的管控,有助于实现该内容。
第三点是可以避免合作方的数据滥用,可以限定合作方对算子和数据的调用,避免合作方超出授权或者未经授权去使用我行的数据。
2、早期探索(建行-建信基金)
2019年开始,我们内部开始尝试部署FATE框架,并内部选用一些样例数据进行测试。在2020年,因发展需要,建行与建信基金子公司通过隐私计算,实现双方数据融通。总行和基金子公司各部署的一台FATE计算节点,并且利用总行跟子公司之间的核心网专线,打通双方的联通性关系。建行利用8亿多客户的1万多个标签,基金子公司利用500多个特征标签,我们对双方的数据进行求交,求交后构建模型。因受当时的网络专线影响,共构建5个货币类基金的精准营销模型,包含高净值、临界、流失、休眠、长尾 5 个客群的secureboost模型。一般来说在建行单边模型,可能选用500棵甚至上千棵树来建模,考虑计算节点配置比较弱,双方的专线带宽不是很大,选用的15-30颗树进行建模。为了进行AB test,我们分别构建建行单测数据模型和联邦学习模型,并对比模型效果。从技术层面上看,AUC、KS、top 5%的lift联邦学习模型明显优于建行单测模型。从业务层面上看,联邦学习模型的前 5% 客户的客户响应率7.35%明显优于建行单测模型5.47%。该案例对我们具有重大意义,真正实现总行第一个端到端的打通的联邦学习,从理论到实践的路径。为未来我行与集团内更多子公司,以及更多的外部公司去开展基于隐私计算的数据合作,积累了宝贵的实践经验。
三、隐私计算需求井喷(2022-2023)
1、中心隐私计算框架部署
2022年,在FATE框架的基础上,我们引入了新的框架,包括多方安全计算框架(MPC)。之前的FATE只能做联邦学习,有了MPC后,我们不仅可以做联邦建模,还可以联合统计分析、匿名查询、联合计算等等。这些新技术支撑了更多的业务场景应用外部数据。
2、隐私计算业务场景
2022年后,建信基金提出了更多隐私计算新需求,内部的合作单位也增加了很多,有建信人寿、建信信托、建信养老、建信财险等公司,外部也有很多合作公司,包括美团、银联、网联、移动、电信等。合作中共有四大类场景,第一类是联邦建模,第二类是安全求交,第三类是匿踪查询,第四种是安全计算。
在 2022 年我们帮助建信基金建立针对非货币类基金的精准营销模型,他们希望把更多的客户从购买货币基金转变为购买非货基金,因为非货基金相对基金公司可能获取的经济效益更大,这次主要用到安全求交和联邦建模。
我们帮助建行人寿建立代理人存量客户精准营销模型,同样应用了安全求交和联邦建模等技术,主要是把行内的一些高净值客户通过求交方式传递到建行人寿。
建信信托是期望借助匿踪查询技术来查询客户在行内的评级分布。
去年年底国家推出个人养老金业务,总行与建信养老通过安全求交的办法获取养老一侧的一些客户,然后借助于行内的精准营销平台,对客户去进行精准营销,促成客户在我行办理养老金业务。
美团是我们持续合作的单位,最早是总行普惠部提的需求,希望借助于美团数据,融合双方数据进行联邦建模,然后向美团的商户进行快贷授信,所以我们做了多个模型,包括准入模型以及额度模型。今年我们跟美团的合作主要是精准营销层面,对快捷支付客户促活、激活的场景进行联邦建模。
另外我们与很多外部公司,包括建行的子公司、支付机构、运营商、一些互联网公司和头部平台等单位都在持续合作中,开展的业务场景非常多,包括反赌反诈、精准营销、精准风控等。
四、企业级隐私计算平台搭建
1、建行企业级隐私计算平台建设
2022年我们搭建了隐私计算场景平台,它并不是一套企业级的平台,存在三点问题:
- 第一个问题是性能比较差,只有几台物理机,对大数据量的隐私计算支持比较差。
- 第二个问题是这套平台目前只有研发环境,没有生产环境,并没有跟我们行的调度平台,以及单笔服务的发布功能进行对接,只能通过手工触发去进行建模或预测。
- 第三个问题是平台中的部分流程,包括数据安全中客户隐私授权、需求项目模型管理等功能,更多依靠手工操作,相对比较粗放。
所以我们今年期望通过搭建企业级的平台,补充上述不足。建设目标是通过打造企业级的隐私计算平台,或者称为数据共享安全计算平台,实现我们与外界数据可用不可见,开发更多的业务场景,激活数据价值,助力数字化业务发展。建设范围是在保护各方隐私的前提下,去实现联合查询、联合运算、联合建模等多种核心功能,支持不同机构间的数据隐私共享及不同金融场景的应用建模。我们最后也希望按照平台化、场景化、标准化、生态化的思路,进行技术研究、平台建设、场景落地。
2、隐私计算平台设计原则
隐私计算平台的设计原则有四点内容:
- 第一点是企业级架构为基础。全面整合联邦学习、多方安全计算等技术路线,支持联合查询、联合计算、联合建模、存证审计等丰富功能,支持建行集团内外部各机构快速部署,便捷使用。
- 第二点是价值创造为目标。在打造平台的同时,通过积极探索新的业务模式来扩展外部数据连接,解决数据供给侧和需求侧匹配的问题,推动建设机构间数据交易网络与数据共享生态,促进数据有效融通,实现业务价值。
- 第三点是满足监管合规要求:遵守《数据安全法》、《网络安全法》、《个人信息保护法》等法律法规,遵照上级金融监管单位的监管要求,确保业务合法合规,实现高等级数据安全。
- 第四点是基于隐私计算和密码学底层算法,在确保“数据不出域”的前提下,实现数据“可用不可见”,充分发掘跨机构数据在银行风控营销、监管等场景的价值。
3、隐私计算平台设计架构
下图是我行隐私计算平台的整体应用架构,最底层的数据层,接入行业的各种数据源,包括内部、外部的一些数据源。算法层支持各类框架,支持各类计算范式,包括查询、运算、建模等等。服务层接入到行里面的模型管理平台、数据管理平台等。应用层支持各种应用,包括精准画像、精准获客、审批授信、智能风控等。
4、建行集团隐私计算创新和荣誉
这里主要介绍在过去几年我们中心以及总行申请获得的一些荣誉,以及一些专利申请情况和一些课题。我们中心最早在 2020 年,就与建信基金合作,获得了信通院的“星河案例”奖。
5、建行集团隐私计算未来发展方向
建行集团隐私计算的未来发展方向包括以下几方面:
一是加速落地更多数据融合应用赋能金融业务场景,加速探索行内外更多数据融合应用场景,赋能风控、营销等常见业务场景,以实现数据与金融业务场景的安全有效融合。
二是加强生态合作,与生态合作伙伴一起,共同推进如互联互通等行业生态建设。
三是持续技术投入和创新研究,依托建行量子实验室等前沿技术研究机构,持续在隐私计算领域投入技术研究力量。参与相关课题研究、标准制定、专利研发等,探索具备抗恶意攻击、抗合谋攻击、抗量子攻击的隐私计算算法。
以上就是本次分享的内容,谢谢大家。