德国柏林,一位医学研究所的研究员在进行流感病毒分析。
大数据中的流感
近些年来,病毒性流感一波又一波袭扰人类,这不但引起学术界的密切关注,而且还经常成为公共领域热议的话题。从 2009 年传播力惊人,造成全球 20 万人死亡的 H1N1 甲型流感,到今年年初,导致整个中国坐立不安的H7N9禽流感,流感病毒不断改头换面浮现世间,令药物和疫苗要么准备不及,不敷使用,要么无法预防,中看不中用。彼时,如果能提早发现流感的发病趋势,不仅能为抗病毒药物的准备争取宝贵的时间,而且还有助于疫苗研发机构能尽早“对症”采取措施。
现有的流感检测主要基于世界卫生组织在 1952 年建立的全球流感监测网络。这一网络由来自 99 个国家的 128 个国家流感中心以及流感参比和研究合作中心组成。
就目前的情况,这一网络运行态势平稳,对流感的监测和防控起到了巨大的作用,但这是因为最近数十年,流感多是地区性流行。按照大流感的流行周期,威胁全球的大流感出现的几率越来越高。
这也对流感监测提出了更高的要求:如何更早更准确地发现流感流行的苗头?
有一群谷歌工程师也有同样的想法。作为全球最大的搜索引擎,每时每刻都有上百万用户在使用谷歌提供的搜索服务,其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。
可以想见,流感流行季,搜索流感症状的人会飙升,而在流感高发地带,这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感,但把这些搜索结果汇总到一起时,或许可以从中建立起一个准确可靠的模型,实时监控时下的流感疫情,并对未来疫情状况进行估测。
工程师们首先面临的任务是选择流感相关的关键词。这一步看似简单,但却非常棘手。虽然可以肯定包含“流感”字样的关键词一定会入选,但语言的组织形式多种多样,具体应纳入哪些关键词,依然难以确定。
工程师索性将关键词的选择权“粗暴”地交给了机器。他们挑出谷歌搜索量最大 5000 万个关键词,分别代入到事先建好的一个模型中,而后将这一模型产生的曲线与美国疾病预防与控制中心(以下简称美国 CDC)的流感流行曲线进行拟合,进而筛选到拟合度最高 100 个关键词。
事已至此,罗马的一半已经建成。接下来就要去芜存菁,从这 100 个预测性最好的关键词中,优选出与流感有关的部分,并将其综合起来完成预测模型的建立。最终有 45 个关键词落入工程师的法眼。
实践是检验真理的唯一标准,预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中,谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较,发现相关系数达 0.90。对于这一模型,更有用的是“未来”验证的结果。在回溯结果的鼓励之下,谷歌工程师从 2008 年初开始,将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋,相关性同样达到了 0.90。最终,工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。
显微镜下的 H1N1 病毒图。
结果仍有缺憾
很快,谷歌根据这一结果推出了名为“流感指数(Google Flu Trends)”的产品,据称能够提前两周提供精确度不低于疾控中心的结果。目前这一指数已推广到全球 29 个国家,并由检测流感拓展到另一种感染性疾病登革热。谷歌工程师对这一产品如此自豪,以至于在产品推介视频中,CDC 的结果完全沦为陪衬,但事实果真如此么?
由于“流感指数”的高低在很大程度上取决于用户的搜索行为,有观察家认为,如果一些事件会影响到用户的搜索,那么指数就有可能出现假阳性或假阴性。果不其然,在谷歌流感指数运行期间,人们逐渐观察到原有模型的缺陷。
早在 2009 年,谷歌流感指数就暴露出了算法可能存在问题。那年在主要国家流行的流感病毒株是 H1N1 型。该毒株传播力惊人,不过毒力较弱。也就是说,相当一部分人感染了H1N1后多表现轻微的典型流感症状,并不会引发更严重的并发症。也许是这一原因导致谷歌用户并未过多关注当时流感的流行状况,致使流感指数的估值严重低于 CDC 的上报数量。这一假阴性错误迫使谷歌工程师第一次大幅修改了算法。
时至 2013 年,流感再一次引起了世人的广泛关注。在中国,H7N9 型禽流感引起 130 余人感染,并致使 44 人死亡,且有人传人的迹象。而在美国,流感流行状况也十分严峻。纽约州在 2013 年 1 月还特地发布“公共健康紧急状态”的通告,以警示民众。这些消息获得大众媒体的广泛报道。然而,谷歌流感指数的表现再次让人大跌眼镜:指数估值出现了假阳性,即远高于 CDC 的统计数量。尽管谷歌方面对此并未置评,但大部分关注这一指数的研究者认为,流感疫情获得媒体连篇累牍的报道,影响了谷歌用户的搜索行为,导致指数估值出现偏差。
在谷歌流感指数启发之下,很多研究者试图利用其他渠道(比如社交网站)的数据来预测流感。纽约罗切斯特大学的一个数据挖掘团队就曾利用 Twitter 的数据进行了尝试。利用团队开发的文本分析工具,研究者在一个月内收集了 60 余万人的 440 万条 Twitter 信息,挖掘其中的身体状态信息。最终的分析结果表明,研究人员可以提前 8 天预报流感对个体的侵袭状况,而且准确率高达 90%。
不过研究者也承认,这一算法并非完美,比如 Twitter 的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童。另外噪音信息的干扰也很难去除。比如研究者在监测 Twitter 上关于流感的信息时,突然发现一个峰值,而那时完全不是流感的流行季,进一步分析显示,原来是纽约湖人队的篮球巨星科比·布莱恩特在那时罹患流感,但仍带病上场,从而引起球迷在 Twitter 上热议所致。
4 月 10 日,昆明市疾控中心国家流感网络监测中心实验室,技术人员正在进行流感病毒的检验检测。
大数据视角下的甄别手段
利用搜索引擎的检索词以及推特的文本挖掘来提前感知流感的脉搏,的确是一种有效的手段,虽然目前仍处于“进化”阶段,但至少可以作为现有监测网络的补充。
上文提到,就大流感的流行周期来看,下一波流感的全球流行很快就会到来。科学家估测,全球流感暴发的导火索很可能是肆虐于禽鸟间的高致病性禽流感具备了人际间传播能力,而 H7N9 或许就是大流感来临前的警钟。
病毒感染人类,就像用钥匙来开锁,如果二者并不匹配,感染过程就无法发生。不过流感病毒是一种很特殊的病毒,它能够通过突变相对迅速地改变“匙齿”,从而打开侵袭人体的大门。1918 年,造成全球数千万人死亡的西班牙大流感就是血淋淋的例证。
相对于利用大数据获取的流感流行趋势,科学家的视角更加深远,他们希望发现哪种流感毒株是毒性最烈的大杀器,希望揭示原本在禽类或猪体内传播的流感病毒是如何发生惊人一跃,转而在人际间流行的,由此为疫苗和药物的研发赢得宝贵时间。
在以往,要回答这一问题,需要比较不同毒株的 DNA 或蛋白序列,这一过程就像在一片森林里挑出一棵树冠漂亮的树一样冗长繁琐甚至有些痛苦。如何对旧有方法做出改进,美国哥伦比亚大学研究者 Rabadan 开始了他的尝试。
他的研究基础依然建立在基于互联网形成的大数据上。世界各地科学家在对手头的病毒样本进行研究时,会将其中的序列信息经由互联网提交公共数据库中。经年累月之后库中积累了大量序列数据。
这些序列数据就像广袤的森林,如何挑出其中树冠最美的树,Rabadan 利用一套复杂的机器学习算法来实现这个目的。
首先 Rabadan 使用已知种属来源的流感病毒数据输入到算法中,教会其如何“审美”,即具备识别哪些病毒来自人类,哪些来自禽类或猪。这一算法训练成熟之时,同时也是其大显身手之日。研究者让其对数据库中6万个病毒基因组进行了分析。大数据视角下的甄别手段果然不一般,Rabadan 已经发现了一批候选突变,认为导致病毒跨物种传播助推器就隐藏在其中。
目前,世界各地多个研究小组正在使用这种方法从不同角度对流感病毒展开研究。美国 St.Jude 儿童医院病毒学家 Richard Webby 认为,在互联网的帮助下,大数据理念与机器学习算法携手,如同为流感研究插上了双翼。这一手段不仅唤醒了沉睡的序列信息,而且还可成为科学家的第三只眼,尤其是在危险的惊人一跃发生之时。