今天随便聊聊一个Susan在2017年发在Science上文章:Beyond prediction: Using big data for policy problems。Susan Athey是美国著名的经济学家,现在是斯坦福大学商学院的教授。在平台和大数据方面的研究方面,她大概是经济学界林朝英这样的角色。值得一提的是她老公Guido Imbens在计量领域的名声更加盖过了Susan在商学领域的名声,大概算是王重阳。
之所以提到这篇论文是因为里面提到了一些非常有趣的关于大数据未来在产业经济领域发展方向的问题。众所周知大数据和机器学习技术的出现大幅提高了我们运用数据来预测的能力,比如说一个和我们生活最息息相关的方面就是许多平台软件会通过大数据学习来定向推送内容(每个人打开百度搜索相同的关键词,得到的结果和排序可能都是完全不同的)。
那么对于社会科学工作者而言,一个自然而然的问题就是:我们未来的发展方向有哪些是可以和大数据方法相契合的?换而言之,社会科学工作者,或者企业领导者是不是可以直接拿来主义,运用大数据来指定相关政策,优化社会福利或者公司运营呢?
苏三(Susan)在她的文章里面提到了现实生活中大数据应用的三个方面:
医疗
医疗方面一个使用大数据预测的例子是:医生希望通过大数据来预测符合哪些条件的病人更适合来做髋关节置换手术。所以他们使用机器学习来预测哪些手术候选人可能在手术后的一年之内死亡,通过手术的风险率来确定病人是否适合做这样的置换手术。他们的说法非常具有经济学意义:一个人只有通过手术能够活得很长的时候,做手术才更有意义;如果手术之后不久就死了,还要为手术承受额外的痛苦,那可能只是一种金钱上的浪费和徒劳。
其实这是一个非常具有现实意义的问题,比如说面对流行病我们是不是也可以使用大数据来对不同程度的感染者采取不同的治疗手段,从而使得有限资源可以最合理化的分配。
然而一个重要的问题在于,我们是不是可以简单地通过这样的风险分类的方式来决定手术的优先性?同时简单基于关联性的机器学习结果也并无法回答更深层的问题,比如说患者之间可能存在我们看不到的异质性问题。就目前而言我们可能并无法通过模型的预测结果来直接判断是否某些病人可能比另一些病人更有可能引发并发症。
回到这次的肺炎事件来看,我们如果仅仅从个体治疗效果角度进行判断通过大数据建立模型来决定有效的治疗手段和方案,会不会忽略了个体的传播性?比如说有一些病患可能从个体角度上来说治疗的优先级并不是最高,因为他们身强体壮。但是可能这些病患恰好是极具传播力的人,反而应该被优先处理。更本质地,到底这种根据存活率来分配稀缺资源的方式是不是就是我们人类社会所追求的最优方式?
城市发展
公共建设和城市发展是大数据方法运用的另一个重要维度。比如说一个很现实的问题是如果我们要在城市里面安排警察,监察员,那么根据现有的人力物力,我们怎么样分配调度才是最优的。这是一个很现实的问题最新的研究成果就有显示,如果在波士顿地区的参观重新按照大数据结果安排卫生监察员的话,可能会相比现有的分配方式提高30~50%的监察效率。
苏三提出这看起来很美,但是相对而言我们也要知道机器学习的方法在预测效率可能会提高30~50%的同时,也忽略了两个重要的因素。要使得效率提高成立的前提条件是:
- 人类的行为不会因为资源的重新分配而变动;
- 即便这样是真的,重新置换分配资源的成本也必须低于收益,不然的话政府将会缺少动力去优化现有系统。
大数据经常也会被用于计算城市的犯罪率,从而合理规划警员的配置和分布。可是另一方面我们需要担心的是一旦这种警员重新配置分布之后,很显然也会反过来影响到潜在犯案者的行为以及犯案地点的选择,最后可能会使得重新分配警力只是在做无用功。当然这一切因为从来没有发生过,自然而然也不可能直接被“大数据”所预测。
企业决策
最后要说的例子是企业的决策,特别是平台类的企业。2015年的时候Blake, Tadelis, Nosko有一篇著名的论文,发在了经济学的顶级刊物Econometrica上。经济学家帮助Ebay做了一个研究,主要是看Ebay通过付费搜索广告来吸引消费者这样的策略到底是否实际有效。之所以做这样的研究是因为在经济学家介入之前,Ebay自己的团队已经做过这样的研究,搜索点击和购买行为本身相互关联。Ebay通过机器学习的方法得到了非常惊人的结果,他们发现通过投资搜索广告获得的点击继而造成的销售利润大概是成本的1400%!
这样的结果太过惊人,以至于Ebay自己都觉得不太可信,因为如果是真的话,那岂不是意味着只要拼命投资广告让更多的人通过广告点击进入Ebay就可以发大财?那运营企业也太容易了一些了吧。
经济学家们发现事实上造成这样的机器学习结果的重要原因是大部分点击广告人的确会在点击广告之后购买Ebay的产品,但是这可能本身就是一种因果错连。主要并不是因为点击所以才想买,而是想买所以才会点击。在矫正了这样的偏误之后,他们重新估计了广告投入带来的收益,发现事实上广告投入带来的平均回报是-69%而不是1400%。