回顾过去的十余年,人工智能的进步可谓“耀眼”。尤其是从2015年“阿法狗”横空出世之后,人工智能行业的发展速度一骑绝尘。归根结底,是人类在人工智能领域探索50余年,最终才在半导体技术和软件技术的帮助下,找到了机器学习领域的突破口。
从2015年起,人工智能行业的发展主题就是把机器学习突破这条“小路”拓宽。安防监控、证券自动交易、文字翻译等一批领域,首先迎来了人工智能的“觉醒”,这与它们自身的数据属性有很大的关系:安防监控的数据都是图像画面;证券行业本身就是数字游戏;人类历史上翻译过的书籍不计其数。
可随着时间的推移,人们发生事情开始转变——在越来越多的应用场景下,数据反倒成为了阻碍人工智能的最大因素。一来越来越复杂的人工智能需要的数据量直线上升,二来现实中的数据孤岛、数据隐私问题难以解决。
对于人工智能行业、亟待人工智能帮助升级的各个产业而言,这都是一个避无可避的挑战,下一阶段的智慧产业必须找到在种种数据限制下继续前进的路径。
目前,“联邦学习”是目前行业内公认最靠谱的解决方法,通过将机器学习与其他数据技术结合,为多方数据特征合作构建一个完全由计算机掌控、高效进行数据价值挖掘的系统。
近日腾讯安全发布的联邦学习应用服务(FLAS),是国内“联邦学习”技术在应用领域的最新成果。通过低成本快速迭代的联合建模服务,FLAS能够在保护所有参与方隐私的同时,有效释放出各方大数据生产力,广泛适应于业务创新的应用场景。
数据,当下人工智能发展的“暗坎”
在机器学习这条路径当中,数据一直扮演着相当重要的角色。虽然各个应用场景存在很多差异,但有两点是一致的:数据越多越好;数据的维度越多越好。
数据量的需求可以参考AlphaGo,Google旗下的DeepMind总共花了两年时间,最终创造出最强大、全面超越人类的围棋人工智能Alpha Zero。相比最早期使用了16万盘人类棋局数据、能够战胜入门职业选手的AlphaGo,Alpha Zero使用了286亿盘、包含人类和机器生成的棋局数据,两者相差达到18000倍。
数据的维度也相当重要,围棋绝对算是一次艰巨的挑战,但棋局实际上都发生在半米见方、只有16行16列黑白子的棋盘之上。围棋相比现实中的问题,实在是太“简单”了,所以在解决现实问题的过程中,往往会用到数倍于简单场景的数据维度。
从数据需求的角度出发,人工智能的应用落地显然应该把所需要的一定量、一定维度的数据聚集到一起,然后用足够的计算力将它们变成可以执行的神经网络。很可惜,这样的操作是不现实的。
现实世界中,人工智能所需的数据,大多都会以“数据孤岛”的方式分布。行业与行业、企业与企业,甚至部门与部门之间,都会存在现实的“数据鸿沟”。对于自身数字经营过程中产生的新型资产,每个主体的数据都是宝贵的,更不要提其中涉及到的用户隐私问题。
近些年愈发严厉的数据法规也带来了很大的挑战,2018年欧盟带头建立新法案《通用数据保护条例》(GDPR),对企业使用用户数据进行了仔细而全面的规定。随之而来的,是对于企业的实际处罚。截止至2019年9月24日,22家欧洲数据监管机构对共87件案件作出了总计3.7亿欧元的行政处罚决定。
中国也在2017年起实施《中华人民共和国网络安全法》和《中华人民共和国民法总则》,明确了网络运营者不得泄露、篡改、毁坏其收集的个人信息。同时,新的《个人信息保护法》、《数据安全法》也在从草案落实成法案的过程中。这些新数据法规的落地实施,必然会对人工智能数据的收集与使用造成了直接的影响。
现实中的种种情况,让人工智能技术落地这一征程,从最早的核心技术驱动,转向了应用中现实问题的解决,也就是如何克服现有的人工智能数据问题。
人工智能行业其实早早地给出了解决方案——“联邦学习”,即在基础的人工智能机器学习核心能力,与一系列数据技术、系统逻辑架构结合,打造出一套系统化的解决方案。利用额外的计算力和网络资源,来实现多方数据价值的汇总,同时实现原始数据不出本地、实际的应用效果还能逼近于直接汇总数据的机器学习。
联邦学习应用服务,帮助银行业解决现实问题
在实际的应用中,金融行业成为联邦学习应用服务的重点落地领域。银行等金融机构长期以来都面对着数据难以融合的问题:作为提供资金往来、各种金融服务的商业机构,并不缺乏数据量。但这些数据大部分都是用户的交易数据,维度相对单一,导致数据的价值很难挖掘。
无论是识别信用卡使用中的违规现象、风险提示,抑或是为用户提供特定的营销推荐,促进业务发展,它们最终服务的对象都是真实的人类客户。后者在实际的生活中其实会源源不断产生各种数据:社交、消费、金融、空间。想要更好地挖掘银行客户的价值,就必须把这些不同类别的数据都加入分析,进而形成对客户的整体性认识。
跨多个行业、很有可能涉及用户隐私风险,这显然是联邦学习发挥自身能力最好的舞台。而腾讯安全最新推出的“腾讯安全联邦学习应用服务”就是联邦学习应用落地领域最新、最有潜力的“舞者”。
腾讯安全联邦学习应用服务是一套典型的纵向联邦学习解决方案,这一类方案通过融合多个机构对相同样本的不同观察进行AI联合建模,最终形成一套针对拥有异构数据的机构,如银行、电商等的联合建模服务。通过采用这套应用服务,最终的数据提供用户隐私得到保障,且各方的数据安全更加可靠,同时全面释放出大数据生产力。
作为一家覆盖众多用户应用领域的互联网巨头公司,以及“联邦学习”本身所具有的前沿技术特性,让腾讯安全联邦学习应用服务从一开始就具备了与目前各种联邦学习项目不同的特点。
首先是“经验”,得益于腾讯自身众多产品、服务,腾讯安全20余年来累积了大量的黑灰产库,形成了包含百亿点、千亿边的黑灰产知识图谱,安全服务已经覆盖中国99% 的网民。
其次是腾讯先进的云计算技术能力,整套腾讯安全联邦学习应用服务既可以基于公有云、也可以基于私有云部署,在具体的部署方式上还支持轻量、便捷、易拓展、易管理的容器技术。
最后是腾讯的互联网“内功”,在腾讯打造联邦学习应用服务的过程中,充分发挥了腾讯内部的互联网产品和工程能力,针对联合建模过程中的通信、稳定性进行了专门的优化:通过通信次数优化、中间结果压缩,减少了联合建模过程中需要传输的数据量,提高效率;另外对于网络环境造成的传输中断,专门打造了模型的断点备份功能,即便数据传输中断也能断点重启,而无需再从零开始。
目前,腾讯安全联邦学习应用服务在实际业务实践中,联合建模新模型的AUC值提升10%-15%,最大KS值提升50%左右。已经与江苏银行、济宁银行、湖北消金、玖富数科、嘉银金科等金融机构达成合作,实现了数据价值的双向赋能。
互联网巨头,下一阶段人工智能的领路人?
放眼人工智能的整体发展趋势,2000年后取得重大突破的机器学习,还将作为人工智能的主要“突破口”,数据也将扮演整个人工智能实现过程中的关键角色。
在人工智能持续的落地中,机器学习这把“大锤”的发展已经开始放缓,在解决了各行各业当中的许多“小钉子”之后,必然需要面对更加难解决的“大钉子”。在短时间内没有办法快速把“锤子”变大的前提下,要通过多人协作——让多个“锤子”劲往一处使的操作方法,来保持、甚至加速人工智能的发展。
但联邦学习终究只是一项技术,它需要面对一系列前提,应用方需要具备:基础的人工智能技术研究实力、多方共同联邦学习系统的工程能力、多方实际操作中的积极参与、相当的前期投入与失败风险。这些对于普通公司和组织不可能的前提条件,对于腾讯这样的互联网巨头就简单多了。
就像腾讯安全联邦学习应用服务一样,腾讯不仅为客户构建了实现联邦学习的通路,同时也将自己积累的宝贵安全黑灰产库加入到了产品服务当中,这种开放、共享合作的心态与行为,很可能会成为未来人工智能发展的重要推动力。