宜信积累了九年的数据,有来自合作伙伴的,有用户授权的,还有一些互联网公开抓取的数据。所以希望用大数据技术来挖掘其中的数据潜力,尤其是互联网金融的价值,为客户提供更好的服务。
郑赟,宜信技术总监,负责若干大数据驱动的互联网金融创新产品的研发工作。加入宜信之前,在美国在线视频公司Hulu任研发经理,负责视频播放和网站主站的技术研发。并曾在Microsoft从事研发工作。郑赟毕业于清华大学自动化系,获硕士学位。
LAIN平台
郑赟表示,做云平台也好,做系统也好,台子要稳固,要有砥柱。这个砥柱一个是大数据基础设施,第二个是基于Docker的LAIN平台。不同业务之间的数据建模是不一样的。但是比如说像开发环境,像测试,包括自动化测试、常规的测试,包括发布,包括技术服务,比如说像日志收集、监控,包括像分布式架构,像操作系统、网络、安全等等,这些其实都是通用的,所以我们把这些凑成一个平台,就是我们的云平台,就是我们常说的Pass系统。
Docker这两年以来,特别是今年年初特别火的一项技术,首先它是一个开源容器引擎,第二它其实为了进一步解决虚拟化的问题那么有了这个Docker之后,我们可以把每一个模块都做到Docker里面去,Docker之间是互相独立的。然后通过这种微服务的方式,把他们串联起来,这样的话就非常灵活。它的性能也非常好,额外开销几乎是零。
最中心的是Docker,它外面有三个主要的技术,就是所谓的三架马车,首先是Docker Swarm,Docker Swarm是Docker官方提供的一个Docker容器管理调度的工具,因为它是官方提供的,所以它有先天集成的优势。然后是ETCD,ETCD是一个非常著名的,轻量级的分布一致性存储,我们主要用它来做一些配置存储,像服务的注册和服务发现。crlico是某个通信公司开源的一套网络的技术,它本身是一个三层的SDN可以替代Docker之前传统的那种通过界定式的方式或者端口移植的方式。
知识图谱
什么是知识图谱?相对于传统的文档或者是结构化数据来说,它有一个特点,它有实体。最早是google提出来的,用来做搜索优化的,我们用它主要做风控相关的数据建模。还有就是个性化问答,可以根据客户的信息,甚至个性化的问题用这个来做反欺诈。
首先在web端,我们会通过我们分布式查询去排除这些公开的数据以及用户授权的一些数据,然后把它分到HDFS里面去。然后又把我们业务数据通过Sqoop达到我们的HBase里去,所以我们进行抽取,***结构化形成这样一个知识图谱,然后这个知识图谱里面,我们常用的查询字段扔到ElasticSearch里面,然后提供给所有的前台进行使用,同时知识图谱也可以做规则引擎和机器学习的数据源。
如何解决实时授信中的反欺诈问题
实时授信首先得解决反欺诈的问题。所以我们反欺诈会从三个方面去做。一个是他的身份,首先我们要确定你妈就是你妈,你就是你,所以会从他的平台账号是不是真实的,他的个人身份信息是否是真实的,然后通过一些个性化问答来确认他信息的真实性。第二点我们就通过他的行为数据来看,比如说它的经营活动是不是有一些造假痕迹,这个人在互联网上是不是进过一些中介论坛,他有没有参与这种活动。第三个方面就是他的关系层级,比如说这个图上的黑圈是那个黑名单,红圈是有过逾期的客户。然后通过各种各样的数据,***综合的信用了评分,然后通过评分决定审批和风险评价。
数据驱动的方法论
数据驱动从方法论上来说,首先要有海量数据,第二我得把数据进行归类,然后再对数据进行分析,***用数据来驱动我们这个产品决策。
对数据进行大分类之后,然后对数据进行进一步的分析。一个是基于已有的数据解释现象,就是我们知道为什么会是这样子的。第二更重要的是我们更希望通过这个,能用数据来指导优化未来,这也是大家很多公司都想追求的目标。
总结整个演讲:首先我们整个金融云需要一个底层的支柱,就是我刚才所说的大数据的基础设施和刚才说云平台,在它之上,我们通过像姨搜这样的应用快速搭建一些比较核心的模块,比如说像反欺诈,像实时授信,***我们通过两个端的产品,商贷和理财的产品自己用这样的平台不断地去优化整个产品,以及优化下面核心模块,然后使得整个平台形成一套完整的框架。在这个框架之上,我们希望给我们的用户提供更好的服务。也正在跟合作伙伴进行数据对接,提供一些服务化的场景。