Twitter数据流可用于预测流感爆发-twitter 数据

[[87167]]

Google 早在 2008 年推出了“流感趋势”网站。它建立的假设基础是：人们在遭受疾病困扰时，会比在身体健康时，花更多的时间搜索疾病相关内容。因此，通过分析一个国家，在特定时期的流感相关搜索量，便可以推算出病毒的传播情况。

这个预测非常靠谱，通常与美国疾病控制和预防中心（CDC）的数据相差无几。事实上，有几次传染病初期的预测，甚至比 CDC 早了一周之久。众所周知，疾病初期预测将为政府及时采取部署，提供了有利的时机。

那么其他的在线服务，尤其是社交网络，能否做到相同甚至更好的预测呢？如今，问题有了答案。卡耐基梅隆大学的 Jiwei Li 和康乃尔大学的 Claire Cardie，成功利用 Twitter 预测了早期流感爆发。

他们的方式与 Google 十分类似。首先，他们从 Twitter 数据流中过滤包含与“流感”相关，并带有位置标签的 tweet；然后，在地图上标注这些 tweet 的位置分布，以及随时间产生的变化。同时，他们还制作了流感的动态变化模型。新模型中，流感包括 4 个阶段：无传染阶段、爆发阶段、稳定阶段以及衰退阶段。

此外，他们采用了全新的算法，试图尽可能快得发现不同时期的转换节点。实际上，Li 和 Cardie 在 2008 年 6 月至 2010 年 6 月间，已经利用 100 万美国人的 360 万条 tweet ，验证了该方法的有效性。为了检验他们的预测是否成真，Li 和 Cardie 将他们的分析与 CDC 进行对比。他们说，“我们确信，流感相关 tweet 与 CDC 提供的流感疾病案例数目，呈显著相关。 ”

这看上去是向流感疾病宣战强有力的武器。它不仅为疾病早期预测提供了新方式，同时，挑战了 CDC，以及 Google 的流感趋势网站。每年，全球约 10－15% 的人感染流感，引发 5000 万流感病例，造成近 50 万人死亡。这是一个不容忽视的庞大数字。如今，政府和医疗机构可以借用 Twitter，更早、更实惠、更便捷得预测疫情，挽救更多的生命。

译文链接：http://www.36kr.com/p/206868.html

英文原文：http://www.technologyreview.com/view/520116/twitter-datastream-used-to-predict-flu-outbreaks/