由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自上海市凯岸信息科技有限公司的麻袋理财***架构师王天青做了以《麻袋理财大数据平台及金融风险控制实践案例分析》为主题的演讲。本文章是把本次分享干货亮点的整理成文字形式,呈献广大的用户:
今天很高兴也很荣幸,能够在这里跟大家分享一下。我们公司成立的时间也不长,我们在大数据方向上做了一些实践,以及有一些简单的案例,今天拿出来跟大家做一个抛砖引玉。
麻袋理财来自中信集团,主要是做互联网消费金融,其实它连接了两个P,一个P是借款人,另外一个P是出借人,有钱的人把钱借给缺钱的人,这中间有很大的学问。当然借款人也不一定是一个个人,也可能是一个企业。麻袋理财是我们线上理财的平台,CTCF是我们线下跟这些借款人打交道的公司。
简单讲一下行业背景。P2P大家已经有所了解了,从2013年、2014年蛮荒时代,到今年已经逐步走向正规的时候了。现在人民银行会同银监会、证监会、保监会等10部委联合印发《关于促进互联网金融健康发展的指导意见》。其中有四条很重要,***条是要鼓励创新,第二要防范风险,第三条要趋利避害,第四条是健康发展。
互联网金融起步也有一定时间,防范风险是各个公司的命根子。比如像银行他们已经有很长的基础,有一定的品牌溢价。银行因为有政府背书,但是万一如果有一个互联网金融的公司出现网站打不开,大家***个疑问就是是不是跑路了。
我们跟业务部门同事的讨论,对行业的风险做了一个简单的分类。***是信息安全,这跟传统的信息安全基本是类似的。第二是运营风险,第三是欺诈风险,第四是信用风险。
从技术角度来看。***个是数据种类,我们是想获得很多很多的数据,但是我们不是银行,要跟他们合作拿到的数据是非常少的。第二我们也是试图从各个渠道拿一些数据,但是这些数据之间的关联度是比较小的。再一个从数据的特质来讲,每一类的数据价值密度比较低,因为它并不是一个真正意义上的真性数据、贴名单数据,必须要综合利用。再一个是类型比较复杂,比如它有结构化的数据,数据库的方式,也有半结构化文本的方式。***在数据分析上,需要你有些时候做实时分析、实时判断。
讲到底我们说的大数据理念有三个V,一个是量非常大,第二是种类非常多,第三是速度很快,产生的数据量很大、很快。在大数据的生命周期里,***步我们要获取更多的数据,这个数据可能是我们跟第三方合作拿到一部分数据,另一方面数据是用户提供给我们。第二个我们要把这些数据都存储起来,其实每一样的数据都会有历史版本的,包括用户的基本信息,这些数据我们都需要存储下来。第三个我们要利用数据挖掘算法,对这些数据做分析,矩列分析,关联分析等等。第四是优化,因为机器算法分析的结果并不一定有用,看看哪些东西是我们需要做调整的。***是产生价值。
麻袋理财有线上业务和线下业务,线上业务是在云上,线下业务是在IDC里面,我们用的这套虚拟化的平台,当然现在也用了docker。核心的数据都在我们的IDC里面,云上有一些应用访问的数据,都会到云上,***同步到我们的IDC里面。
针对实时数据,我们利用了卡夫卡和斯巴克这两个工具做这个工作。首先我们会收集所有的应用状态、性能。我们会把一些重要的关键数据,比如用户登陆的时间、用户提现的时间等做一个整理到卡夫卡这边。我们也用ERP做全文检索,***实际的数据都放在HDMS上。
我们在IDC里面部署了这个大数据的平台,底下是HBFS,做一些交互性的数据。
数据分成外部数据和内部数据,外部数据就是用户提的账单数据,还有一部分社交数据,还有一些征信数据,这些数据***汇总到HBFS里面。然后我们有内部的系统,内部系统包括信贷系统、账务系统、催收系统,都会有自己的数据库,这些数据定期的可以通过Saoop把数据同步到我们的HBFS里面。当然我们还会做一些数据的清洗和汇总。
***是有两大应用场景,***种是做传统的DI,另一个是用Tez做一个报表的展现。上面我们做深度分析和挖掘,主要用一个SAS这个软件,另外我们也用R/Python做,Python有一个数据挖掘的库,我们会直接用它。***得到这个结果形成可以被应用到业务系统的规则,来驱动业务系统的升级。这个大概是这么一个流程。HBFS承载了我们所有的数据,这个就是我们现在所说的实时分析和P处理、历史分析,都能支持的一个平台。
***所有做的事情是要解决三大哲学问题,你是谁,你来自什么地方,你要去哪里。
总之,风险控制是互联网金融成败的必要条件,它不是充分条件,是一个必要条件。在互联网的背景下,数据呈现了多样化、海量、需要实时处理,一旦损失或者风险发生,就为时已晚,你必须要在风险发生之前做出判断。因此建立大数据平台是互联网金融必须的技术手段,用传统的方式达不到这个效果。