疫情防控,科技公司一直在行动。
在全球疫情蔓延的情况下,3月31日,谷歌启动了一项名为“COVID-19 Public Datasets(新型冠状病毒公共数据集)”的项目,托管一个与疫情相关的公共数据资料库,并免费向外界开放,用户可以自由访问,以及自由分析其中的数据信息。
“COVID-19 Public Datasets”是什么?
据项目官方解释,“COVID-19 Public Datasets”中的数据,囊括了JHU CSSE(约翰·霍普金斯大学系统科学与工程中心)数据集、世界银行的全球健康数据和OpenStreetMap数据,它们都被存储在了Google Cloud 上,并带有“COVID-19 ”标签,研究人员可以免费访问和查询,并通过BigQuery ML服务(一个完全托管的数据仓库)直接在内部使用这些数据训练高级机器学习模型,直至2020年9月15日。
谷歌方面表示,“COVID-19 Public Datasets”的启动是为了更好的为‘以教育和研究为目的’的工作者提供赋能服务,我们不会加入或管理PHI(一个致病菌的数据库)或PII(个人验证信息)数据,希望尽最大努力阻止疫情蔓延。
不过需要注意的是,如果用户要将“COVID-19 Public Datasets”和其它非新冠病毒数据集结合使用,那么BigQuery Sandbox将以字节为计,在每月的免费额仅有10GB存储空间和1TB查询空间之外,超出部分则按量收费。
疫情之下,开放数据集意味着什么?
数据统计显示,截至到昨日下午2点,全球COVID-19病毒确诊感染人数已超72万人,死亡人数达3.4万人。
但与此同时,正因数据量庞大、分散,研究人员面临着极高强度的数据分析工作。除此之外,数据信息的不完整和部分不公开,也在一定程度上让大众对疫情了解不够全面。也因此,开放可获取、完整、细颗粒、及时、可机读、结构化数据尤为重要。
此前,为加强全球疫情防控联动,多个科技界、学术界机构便联合推出了一个公开数据集“CORD-19”,其中涵盖了截至3月13日之前的近3万篇新型冠状病毒相关论文,以及针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和API等。
而针对谷歌的“COVID-19 Public Datasets”数据集,Descartes Labs的工程主管Sam Skillman评论称,“谷歌在BigQuery中开放并提供COVID-19数据将极大的推动研究人员进行数据分析,特别是免费查询服务的推出,会吸引更多人参与到这一项目中来,这对全球数据共享、提升数据分析能力、普及病毒信息非常有帮助。”