概述
Patterns and Predictions(P&P)是一家预测分析公司,其核心技术提供非结构化和语义驱动的预测。正是该技术为Durkheim项目的“大数据”分析网络提供了用于评估心理健康风险的技术支撑。Patterns and Predictions(P&P)公司的合作伙伴包括彭博(Bloomberg)、达特茅斯的盖瑟医学院(The Geisel School of Medicine at Dartmouth)、Cloudera和Attivio。其客户包括全球100强大型公司。该公司的主要合作伙伴Chris Poulin,是该公司核心Centiment®技术的共同发明者,Centiment®是一种提供非结构化和语义驱动预测的技术。
Durkheim 项目是为了纪念法国社会学家David Émile Durkheim在1897年出版的书籍《自杀论(Suicide)》而命名的,在该书中其最早定义了自杀风险的文本分析,并且提供了与社会脱节相关的重要理论解释。该项目遵循其Durkheim的研究方向,即Durkheim所称的自杀的“特性” – 指向自杀风险的具体模式和线索。而Durkheim 项目具有一个创始社会学家未曾拥有的有价值的工具,即技术。
面临的挑战
自杀多年来一直困扰着美国军方。如今,这种无处不在的战争后遗症对于美国社会来说,是一场长期且无处不在的战争,并且令人震惊的是伤亡率仍在持续增加。在很多文章中都提到了这一问题,其中美国《时代(Time)》杂志报道说,2012年全年美军达到了创纪录的349例士兵自杀事件,远远超过了美军同期在阿富汗战死的士兵数。士兵自杀的比例大约是美国一般民众中成年人的两倍。
在《2012年自杀数据报告》中,美国退伍士兵事务部(VA)指出,“关于退伍士兵自杀风险的特征和结果的信息对于改善自杀预防计划的制定是至关重要的。”
Durkheim 项目旨在提供这一重要信息。凭借其强大的高级分析、实时预测建模和机器学习协同工作功能,该项目寻求确定退伍士兵的沟通和自杀风险之间的关键相关性,Fast Company 称赞其为我们所见过的“对大数据最重要的使用”。
关键要点
行业
• 政府
• 医疗保健和生命科学行业
地理位置
• 美国新罕布什尔州普茨茅斯
支持的业务应用
• 识别自杀风险因素的预测分析
影响
• 实时沟通和自杀风险之间的准确的、语义驱动的相关性
• 基础架构提供了更低的成本,更好的计算吞吐量,并降低了IT 支持的复杂性
使用的技术
• Hadoop 平台:CDH
• Hadoop 组件:Cloudera Impala和Cloudera Search
• 服务器:Cray grid、Amazon EC2
• 分析工具:Patterns and Predictions Centiment®;Attivio
大数据规模
• 每天实时处理超过1TB 的作业
• 实时支持高达100,000 名现役和退伍士兵
解决方案
第一阶段
Durkheim 项目于2010年开始设立,该项研究最初由达特茅斯学院(Dartmouth College)发起,并且P&P 和Poulin 都参与了该项研究。Poulin 及其专家是该项目的多学科协作团队的关键成员,其中还包括人工智能领域的专家,以及来自私人公司、达特茅斯盖瑟医学院(Dartmouth’s Geisel School of Medicine)和VA 的医疗专业人员。
该项目的第一阶段开始对三个实验组进行研究,每个实验组包含100 名受试者,分别代表“非精神失调”、“精神失调”和“自杀阳性”状态。研究人员开发了语义驱动的预测模型,从非结构化临床诊治记录数据中预估可能的自杀风险。
2011 年,P&P 开始引入该技术,并建立了综合性的基础架构和预测模型,在经过系统扩展之后可以支持该项目海量的数据收集和分析工作。此外,Apache
Hadoop 等分布式技术为高效和高度可扩展的大数据平台提供了适宜的解决方案;但是该项目需要一个轻量级的机器学习框架,该框架可以在Hadoop 上运行并能检测大规模的实时风险。
Poulin 解释说:“大多数大数据机器学习解决方案的精确度都很低,或者在实施以及与我们现有环境的集成方面非常复杂。”
Cloudera 公司在Hadoop 和大数据领域的领导地位和丰富的专业知识使Poulin 能够充分利用Cloudera 专业服务共同开发贝叶斯计数器(Bayesian counters),这是一个基于Apache HBase 和市场主流的100%开源CDH(Cloudera’s Distribution Including Apache Hadoop)基础上,能够大规模检测风险的轻量级统计模型。基于Cloudera 的框架体系是Durkheim 项目的技术基石。
通过引入独立的统计指标(包括关键字组合、模式和其他语义线索),仔细分析来自各种退伍士兵数据库源的先前数据,对该紧密集成的系统进行“训练”。在训练后,机器学习功能可以识别出实际数据中的有用线索,并建立风险“得分”。
因为自杀是一种个体行为,而且倾向于自杀的个人往往在体态方面都保持良好,Poulin 解释说:“风险信号比较弱。当大规模部署该系统时,机器学习功能必须对大数据非常敏感。”
第一阶段的构建和测试工作于2013 年初完成。结果验证了该项目的机器学习数据结构是可行的,并且证实了其预测能力在预测退伍士兵控制组自杀风险中有65%的准确率。
“ 凭借Cloudera Search 和Impala,Hadoop 在数据撷取方面可以非常有效地降低成本,提高计算吞吐量以及降低IT 支持的复杂性。”
Chris Poulin,Patterns and Predictions 公司首席合作伙伴
第二阶段
Durkheim 项目的第二阶段于2013 年07 月启动,在Cloudera 公司的支持下,其重点关注的是针对不同类型的结构化和非结构化数据的“大规模自主性预测”的最终目标。同时,Facebook 在这一阶段加入了DARPA,通过推广自愿参与者的内容以支持项目的监控目的。
因为参与者目标数量为100,000 名退伍士兵,因此该数据肯定会非常“大”。选择参与该项目的退伍士兵会收到一个独特的Facebook 应用程序以及一个移动应用程序(iOS 或Android 系统),这些应用程序都旨在收集用户帖子、Tweets、手机上传数据,甚至是位置信息。这些应用程序还收集一些其它特性数据,包括医师信息和临床诊断记录。为了确保遵守各种隐私和HIPAA 法规要求,所有采集的数据都存储在达特茅斯盖瑟医学院装有医疗防火墙的安全环境中。
随着众多参与者的不断加入,该系统建立起了个人资料信息,并且盖瑟医学院的研究人员和临床医生都可以通过仪表板访问这些信息。该系统根据共性信息和针对每一位参与者特定的关键字为每一种特性都指定了总体风险评分。
对连续导入的大数据池使用文本分析可以提供指数级数量的变量,然后可以对其进行比较和分析,从而实现对参与者的心理健康的实时评估。Poulin 说到:“分析这些数据的计算处理需要建立一个大数据结构,但其带来的好处是可以获取更多的信息量。”
该项目的技术目标是“以最低成本实现最大速度”,这就促使了Cloudera Search 和Cloudera Impala 的采用。“该项目的工作流非常复杂,”Poulin 解释说,“我们所有的机器学习都建立了索引,我们实际上通过搜索接口访问了所有的机器学习,因此代价是非常昂贵的。凭借Cloudera Search 和Impala,Hadoop 在数据撷取方面可以非常有效地降低成本,提高计算吞吐量以及降低IT 支持的复杂性。”
Durkheim 项目第一阶段的实验结果预测了退伍士兵对照组中的自杀风险的精确度达到了65%,表现出显著的统计学意义。
影响力
由于自杀议题的复杂性和敏感性,加上美国军方面临的严峻形势,使Durkheim 项目受到各方的密切关注。因此,就此而言,“该项目的技术层面与社会工程相比来说要容易得多,”Poulin 说到,“如果一个人真的一心想自杀结束自己的生命,那么必须要具备足够的信息同时足够耐心温柔,帮助他/ 她找到更好的解决方法。”
尽管如此,Durkheim 项目仍然处于初始阶段,仅被美国军方授权用于监测和分析数据。虽然该项目已经提供了统计学上有效的结果,准确地预测退伍士兵控制组中的自杀风险,但是其关键研究结果(至少暂时)仍然受到非干预性协议的限制。通过使用Cloudera,Poulin 希望,该项目不断进步的风险分类器将有助于该项目建立实时评估风险的能力,以便他们能够应用于干预性研究。
Poulin 指出:“在这种情况下,大数据的目标承诺之一是可以缩短需要帮助的人和可以帮助他们的系统之间的距离。这就是我们奋斗的目标,并且我们希望继续与Cloudera 公司一起竭诚合作,矢志不移地向着成功前进。”