大数据征信技术的形成
随着我国社会信用体系建设的步伐不断加快以及计算机和网络技术的不断提高,征信业的发展也需要适应大数据时代发展所带来的技术变革。征信机构在积累征信数据的同时,也需要提升自身的数据存储能力,丰富所积累数据的维度,提升数据分析挖掘、处理速度等各方面能力,从而促进征信业向一个崭新的数字化时代迈进——大数据征信时代。
因此,数据积累是征信机构一项重要的商业资本,大数据征信是征信机构的技术发展方向。征信机构需要不断地开拓数据渠道、发展数据挖掘技术、创新产品和服务,并不断将大数据征信应用到经济、金融、电子商务等各个领域。
征信大数据链数据流动过程分析
(一)征信大数据链框架图
征信大数据链的相关方包括上游的数据生产者、中游的征信机构及下游的征信信息使用者。征信大数据框架如图1所示。
(二)征信大数据的上游生产者
大数据征信并没有颠覆传统征信的基本职能,从数据的来源渠道看,大数据征信比传统征信数据来源更加广泛,除了来自金融机构和政府部门,还有基于互联网的交易和社交信息等。目前与征信相关的大数据来源可以分为四大类。
1.信用交易数据生产者
信用交易数据是从事金融活动时所产生的数据,此类数据主要来源于金融服务机构。我国金融服务机构大体可以分为三类:金融机构、类金融机构和互联网金融机构,这三类机构构成了我国的金融服务体系。我国金融体系架构图如图2所示。
金融机构:是指从事与金融服务业有关的金融中介机构,为金融体系架构中的一部分体系框架。本文将纳入“一行三会”日常监管下的传统金融机构归类为金融机构,涵盖了商业银行、证券公司、保险公司、基金公司、信托公司、资产(管理)公司、金融租赁公司、信用合作社、政策性银行等金融机构(企业)。这些金融机构在应用征信大数据方面具有天然优势:数据量充足。金融服务机构在业务开展的过程中积累了包括客户身份、资产负债情况、资金收付交易等大量高价值的数据。在运用专业技术挖掘和分析之后,这些数据蕴藏着巨大的商业价值。
类金融机构:目前对类金融企业没有严格定义,根据21世纪经济报道采访到专业人士认为:类金融机构广义理解是除了银行、保险、券商等传统金融企业以外的投融资机构或平台,包括派生的、延伸的、创新的投融资平台。本文将“一行三会”监管范围以外的投融资机构称为类金融机构,主要包括了小额贷款公司、融资性担保机构、融资租赁公司、商业保理公司、典当公司等。这些投融资机构拥有客户交易的历史信息,这些数据对企业和个人客户的信用分析、风险识别等方面具有宝贵的价值,可以达到甄别客户和防范风险的作用。
互联网金融机构:是指将传统金融服务与互联网技术结合,利用互联网和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融业务模式。互联网金融并不是互联网和金融业的简单结合,而是基于安全、移动等网络技术,并被用户熟悉并接受的新模式及新业务。互联网金融的主要发展模式如下:
(1)众筹:个人或团队将需要资金的项目策划交给众筹平台,经过相关审核后,便可以在平台的网站上建立属于自己的页面,用来向公众介绍项目情况,从而获得资金。
(2)P2P平台:即点对点信贷。P2P网贷是指通过第三方互联网平台进行资金借、贷双方的匹配,需要借贷的人群可以通过网站平台寻找到有出借能力并且愿意基于一定条件出借的人群,帮助贷款人通过和其他贷款人一起分担一笔借款额度来分散风险,也帮助借款人在充分比较的信息中选择有吸引力的利率条件。
(3)第三方支付:具备一定实力和信誉保障的非银行机构,借助通信、计算机和信息安全技术,采用与各大银行签约的方式,在用户与银行支付结算系统间建立连接的电子支付模式。
(4)数字货币:数字货币是对货币进行数字化,是电子货币形式的替代货币。以比特币等数字货币为代表的互联网货币爆发,从某种意义上来说,比其他任何互联网金融形式都更具颠覆性。
(5)大数据金融:是指集合海量非结构化数据,通过对其进行实时分析,可以为金融机构提供客户全方位信息,通过分析和挖掘客户的交易和消费信息掌握客户的消费习惯,并准确预测客户行为,使金融机构和金融服务平台在营销和风险控制方面有的放矢。
(6)信息化金融机构:是指通过采用信息技术,对传统运营流程进行改造或重构,实现经营、管理全面电子化的银行、证券和保险等金融机构。金融信息化是金融业发展趋势之一,而信息化金融机构则是金融创新的产物。
(7)金融门户:是指利用互联网进行金融产品的销售以及为金融产品销售提供第三方服务的平台。它的核心就是“搜索比价”的模式,采用金融产品垂直比价的方式,将各家金融机构的产品放在平台上,用户通过对比挑选合适的金融产品。
2.商品和服务交易数据以及行为数据生产者
一些电商、金融、娱乐、旅游等企业,以及水、电、气、话、教育、医疗等公用服务机构,利用自有的工作机制和网络平台,收集本机构留存的客户买卖商品和享受服务中的身份信息、业务信息和社交行为信息,并对这些数据进行有序加工整理,形成数据库。由于不同企业和服务机构处于竞争状态,彼此力争形成自己所谓的“闭环”,提供他人分享的内在动力不足,所以这类信息也主要是企业和服务机构自身的客户信息。
3.政府公开信息和公共服务信息的数据生产者
政府公开信息里特别常用的就是企业工商注册的信息,主要是行政司法机关掌握的企业和个人在接受行政管理、履行法定义务过程中形成的信息。公共服务信息最常见的有工会服务信息、社区服务信息,以及信用中国及地方的信用信息平台的公开信息等。
4.通过技术手段爬取或非常渠道获得的其他各种领域的数据
对于很多企业来说自身数据积累相对有限,因此通过技术手段从互联网渠道爬取或者是以非常规渠道从黑市交易获得机密数据,也成为了一种数据获取之道。此类数据的种类多样,可能有涉及各种行业的行业数据或者涉及企业和个人的信息。
通过以上对征信数据上游生产者的介绍,可以发现不仅征信数据的形成渠道多样,并且数据种类和数据结构也非常复杂。从征信数据的渠道来源来说,有来自政府的公开信息,也有从市场采集的信息;从征信数据的数据种类来说,有金融交易数据、市场交易数据,也有不少社交行为数据;从征信数据的数据结构来说,有结构化的数据,如数据库里的行数据,也有非结构化的数据,如视频、图像、文本等。
(三)中游征信机构的数据加工
1.征信大数据的数据加工过程
总体来说,征信行业大数据应用实施的演变过程可以分为四个阶段:第一个阶段是征信数据的积累,即对通过各种采集渠道获得的各类型的征信数据,进行收集和存储;第二个阶段是信息检索过滤,是将积累的数据进行分类检索和过滤筛选之后,变成有价值的信息的过程;第三个阶段是信息深度挖掘,从信息中发现知识;最后一个阶段是大数据的至高境界——智慧决策,即对未来的事件进行风险预测,从而采取相应的决策来防范风险。由此可见,征信大数据应用实施的演变过程就是把没有关联关系的大量数据通过一些分析和处理的技术手段转变成有用的信息最终形成决策,从而有效防范风险。
2.征信大数据的挖掘分析技术
由以上对大量数据的来源分析可知,由于与征信相关信息的数据采集渠道复杂、数据来源不可追溯、数据结构多样,于是针对不同的数据群体的不同特点,也要选取不同的处理和解决办法。征信大数据分析技术包括离线数据处理、实时数据处理和数据分析技术等。
(1)离线数据处理引擎——hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的并行计算框架MapReduce,可以对离线数据提供简单的并行计算处理。Hadoop适合处理几百T这个级别的数据量,并且适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析,从而实现了对离线数据进行长时间处理的功能。目前Hadoop主要可以用于用户行为分析、广告效果分析、产品设计分析、商业智能分析、报表统计等。
(2)实时数据处理引擎——Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,虽然它有与 Hadoop 相似的开源集群计算环境,但是它在某些工作负载方面表现得更加优越,不仅优化了迭代工作负载,而且内存计算速度 比 Hadoop 快100倍。构建在Spark上处理实时数据的Stream的框架,基本的原理是将实时数据分成小的时间片断(几秒),以批量处理的方式来处理这小部分数据,从而实现了实时计算与处理数据流的功能。
(3)数据分析技术——SPSS
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件,是IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。传统的征信理念试图通过已知的因果逻辑关系分析历史数据,征信大数据应用SPSS软件强大的数据分析技术,除了可以揭示信息主体的历史数据和行为之间的因果逻辑关系外,还努力发现事物之间的相关性、关联性,并对其加以广泛利用。
当然,用于数据挖掘与分析的软件还有很多,这里不在一一介绍,对于不同软件的选取与使用原则:一是要遵照数据挖掘与分析项目需求与实现功能,二是要结合数据分析师的分析理念和日常习惯。
(四)下游信息使用者对数据征信产品的使用
在金融领域常用的数据征信产品有:银行评级及其他评级报告、专项评价报告、信用咨询类服务、企业征信、金融机构服务等。该领域的产品主要为从事金融活动的相关方提供,例如担保机构、小贷公司、保理公司、融资租赁公司等。旨在帮助金融活动的相关方收集被调查对象的真实、有效数据信息,经过征信机构判断、评价、分析后,甄别与防范在从事金融活动的过程中各种可能发生的风险。
在政府领域常用的数据征信产品有:评级或评价报告、筹建咨询报告、征信调查服务、信用体系建设咨询等。该领域的产品主要服务于政府部门、行业协会等,不同产品对应于政府相关部门的不同需求。例如社会信用体系建设咨询产品,是征信机构结合信息化的技术手段为地方或行业社会信用体系主管部门提供规划编制、平台建设、体系设计等服务。
在商业或商务领域常用的数据征信产品有:评级或评价报告、投融资咨询报告、征信评价报告、供应链管理服务、系统开发等。该类产品是针对商业发展或商务合作开展的大数据征信服务。
在公共领域常用的数据征信产品有:PPP咨询、社会信用产品应用咨询、社会责任报告、大数据排名等。该类产品应用于针对社会公众所提供的大数据征信服务。
在个人领域常用的数据征信产品有:个人征信、个人贷款风险预测等。该类产品应用于针对个人所提供的大数据征信服务。
大数据征信未来的发展与应用方向
(一)互联网行业发展催生征信需求发展旺盛
以互联网金融为代表的新型互联网服务行业的快速发展将带来大量新的征信需求,包括P2P网络借贷、电商金融等互联网金融行业,以及以淘宝为代表的电子商务行业和以滴滴打车为代表的O2O服务行业等新型行业。对于P2P网络借贷等互联网金融行业来说,需要借助信用信息共享来防范信用风险、降低交易成本,这就需要大数据征信的实时分析技术,来随时甄别和防范可能发生的风险。对于电子商务行业来说,电商消费者的精细化营销、个性化服务和批量化处理将成为主要的运营模式,这对于大数据征信技术来说,要求更加准确地把握消费者的消费习惯、风险偏好和信用状况。
(二)深层次的信息加工推动征信产品创新升级
随着云计算、数据挖掘等信息技术的发展和应用,为征信产品的创新和升级奠定了技术基础。一方面,征信机构能够凭借互联网的各种渠道拓展信息来源,降低信息采集的难度和成本,并且利用电子邮件等网络通讯技术的新型交流方式,快速、便捷地提供实时、全面的征信服务。另一方面,数据处理能力的提升,使得征信机构可以对其掌握的数据资源进行更充分挖掘和分析,开发出具有更高技术含量的产品和服务,满足社会多层次、全方位、专业化的征信需求。
(三)信息安全和信息主体权益保护技术全面加强
随着征信机构采集和存储数据的不断增多,信息安全问题也亟待加强,征信机构通过数据库存储数据和互联网传输信息等技术手段提供征信服务,容易受到黑客有意入侵和病毒攻击的威胁,一旦数据遭到窃取、泄露、篡改,将对个人隐私和客户权益造成侵害。另外,互联网环境下,个人信用信息的采集、共享和使用与信息主体权益保护间也存在一定的冲突,如何落实《征信业管理条例》的相关规定,还需要进一步斟酌和研究。