大数据与行为预测模型—刘志军-51CTO.COM

今天要跟大家讲讲大数据与行动预测模型。为什么要讲这个呢？马上消费金融公司是一家持牌的消费金融公司，也就是说有国家银监会发了营业执照的。我们首先是一家创业公司，因为是很小的团队从零开始创建，同时是一家互联网公司，因为我们要从事的是线上的业务。同时我们是一个大数据的公司，这也是我今天要跟大家简短介绍的东西。

刘志军博士，马上金融副总经理，原美国前五大银行Capital One统计分析部资深总监，曾担任美国知名征信机构Equifax***统计学家和美国密西西比大学副教授。刘志军拥有美国宾夕法尼亚州立大学的博士学位和中国科学技术大学的学士学位。

我们的消费金融做的业务跟别的消费金融和互联网公司本质上没有什么不一样，但手段上可能有差异。我们的业务是以数据为依托的，有来自央行征信局的征信数据，有社保数据和公安部数据，加上互联网上的数据。这些大量多元、高维的、动态的数据，会支撑整个业务，包括从产品设计到市场营销，到风控策略，客户管理，到***的催收，都是通过数据给我们提供决策的依据。

再说业务性质。消费金融有几个特征，***个它是小额，个人消费金融不可能是特别大的额度，界定20万为上限。第二是分散，咱们不像银行做一个大生意，一大单好多亿借出去，所以它比较集中，咱们分散，是面对全国的老百姓。第三是大量，咱们有14亿人，除了未成年的以外，别的都是可能的客户。第四是短期，咱们做决策的预测不需要预测10年、20年，就是一年两年，甚至是几个月。

这其中会有三类问题，一个是聚类，把客户分成一类。还有一个是模式的识别，事先设了目标。还有一个是预测，根据你得到的数据来预测一个特定客户的行为。这三类问题归根结底还是预测问题。

预测归结到数据或者统计上来说，是一个非常简单的问题，问题的提法非常简单，解法可不那么简单。很多实际问题***个把它分为二元回归模式。对我们来说，比如风险可以设为0和1，就是有和无，具体来说就是我放一笔贷款能收回来和收不回来，就是两种可能。

这样目标变量就叫Y，就是0和1。用什么来做预测，就看你能收集到什么数据，这些数据跟它有多少相关性。这个取决于两个条件，一个你有没有数据，一个你数据的质量怎么样，跟你所对应的要解决的问题相关程度怎么样。现在大家都说做大数据，大家手里有数据，觉得非常有价值，确实是非常有价值。但是它跟各类问题的相关性到底有多强，是有待验证的，越强价越大，做出来的预测值是什么，就是一个概率。

具体怎么设定这个问题，有一个表现的窗口。我们能够预测的观察值就是在窗口的开始。比如说我们做风险的预测，就是在客户申请贷款的那个时候的数据，作为预测放款以后他会什么样的表现。我们要观察给他多长时间合适，取决你金融的产品，取决你具体的业务。比如你就是一个三个月三期的分期的产品，用不着跑12个月。

更一般的情况是，我们有一般回归的模型，对我们消费金融来讲，比如说消费的金额，这个我们可以做预测，特别是对信用卡来说，信用卡可以贷多少，都跟盈利很有关系。我们有一批真实的数据，真实的收入，用我们相关的变量来预测，估计这个收入，这个可以做模型。也就是说用一种数据来预测另一种数据。

在这种情况下又变成一个回归模型，既然都是回归模型，那就抽象成非常简单的回归的模型，这个模型就是一个条件期望，就是Y比X，X是所谓你的L预测的数据、变量，一个条件期望。预测，这也就是说在大数据设定下，我们只管相关性，而不管因果性。

建模的方法，时间关系不会讲细，我列一些方法，这些方法大家也都经常听说过。从这边比较传统直观的方法是参数的方法，参数方法说白了就是把你的预测变量分成小块，在块上看你要预测的变量观察值的平均就完了，就那么简单。

具体的问题还得具体分析。真正你要了解你要解决的问题是什么样的，你才能把模型建好了。以我的经验，***你发现你找到的***的方法是hybrid，所谓的hybrid就是综合很多种不同的办法，来做出的一个模型。

建模很重要，但是怎么用模型其实更重要。一个比较好的模型用的***，比一个***的模型一般用法要好。没有特定的分界值，而是对不同风险的客户群，我们有不同风险的政策。所以要复杂地应用这个模型，在别的维度上要想明白怎么优化，这样模型的用法就会比简单的切割要好得多。

***我准确讲一讲建模中常有的问题，这确实是针对目前国内情况的问题。在美国有问题，但不是这类的问题，一个是数据覆盖率的问题。我知道很多机构，很多大公司，都有数据，都很宝贵，很难让他们拿出来共享。这就造成了覆盖率有问题，每一块的数据覆盖一部分，另一块的数据又覆盖另外一部分，这是一个问题。第二个是质量标准不一样，可能是同样来源的数据，但处理完了之后造成标准不一样，质量不一。这就造成大量的缺失值，造成很多样本的偏差。这个问题怎么解决，确实是我们面临的很大的问题，这也是我觉得应该用大数据方法来解决的。

总结一下，消费金融的特性特别适合于大数据作为行为的预测。方法有非常多种，取决于你对这个业务的理解，对方法的理解。根据你实际的情况，能够选择最适合的办法。通常不会是一种办法，而是你自己创造出了办法，结合好几种办法的东西造一个hybrid的东西。造完模型并不是就完成了，最重要的一块是你的模型要有充分的验证。因为这里面很重要的一点是讲相关性，相关性不是因果关系的话，很可能这个模型失败了你都不知道怎么回事，哪一天模型一点用都没有，你都不知道怎么发生的。因为它不是因果关系的问题，是个相关性的问题，相关性在特定条件下产生的。这个特定条件一旦没有的话，这个相关性就不存在。所以验证和稳定性非常重要。还有一点，建模很重要，但是应用更重要。***我希望咱们的数据共享能够更快、更广的推广，也希望大家共同努力，能够把我们目前所遇到的问题解决了。