随着机器学习和量子计算的巨大进步,我们现在有了更强大的新工具,能够以新的方式与各行业研究者合作,并从根本上加速突破性科学发现的进展。
本期谷歌年终总结的主题是「自然科学」,文章作者为谷歌研究院的杰出科学家John Platt,1989年博士毕业于加州理工大学。
自从八年前加入 Google Research 以来,我有幸成为一个天才研究人员的社区的一员,致力于应用前沿计算技术来推动应用科学的可能性,目前团队正在探索物理和自然科学的课题,从帮助组织全世界的蛋白质和基因组信息以造福人们的生活,到利用量子计算机提高我们对宇宙本质的理解。
利用机器学习解开生物学之谜
生物学的非凡复杂性让无数研究人员感到着迷,从探究大脑的奥秘、探究蛋白质的构造,再到编码生命语言的基因组,谷歌一直与来自世界各地其他领先组织的科学家合作,应对连接组学(connectomics)、蛋白质功能预测和基因组学领域的重大挑战,并使创新成果能够为更广泛的科学界所利用。
神经生物学
2018年,谷歌开发的一个应用是探索信息是如何通过斑马鱼大脑中的神经元通路传播的,提供了对斑马鱼如何参与像群集这样的社会行为的深入观察结果。
论文链接:https://www.nature.com/articles/s41592-018-0049-4
通过与马克斯 · 普朗克生物智能研究所(Max Planck Institute for Biology Intelligence)的研究人员合作,研究人员们用计算机重建了一部分斑马鱼大脑的3D 电子显微镜图像。
这也是在利用成像和计算管道绘制小脑中的神经元回路方面取得的里程碑式的进展,也是连接组学领域的又一次进步。
这项工作涉及到的技术甚至可以应用到神经科学以外的领域,例如,为了解决处理大型的连接组学数据集的难题,谷歌的研究人员开发并发布了 TensorStore,一个开源的 C++ 和 Python 软件库,专门用于存储和操作 n 维数据,在其他领域也适用于存储大型数据集。
代码链接:https://github.com/google/tensorstore
通过比较人类语言处理和自回归深层语言模型(DLM) ,研究人员利用机器学习阐明了人类大脑是如何执行像语言这样与众不同的功能。
论文链接:https://www.nature.com/articles/s41593-022-01026-4
在这项研究中,谷歌与普林斯顿大学和纽约大学格罗斯曼医学院的研究者合作,让实验参与者听30分钟的播客,同时使用皮层脑电图记录他们的大脑活动。
记录结果表明,人类大脑和 DLM 共享处理语言的计算原理,包括连续的下一个单词预测,依赖上下文嵌入,以及基于单词匹配的post-onset suprise计算,即可以测量人类大脑对单词的惊讶(surprise)程度,并将惊讶信号与 DLM 对单词的预测程度相关联。
这些结果为人类大脑中的语言处理提供了新的结论,并且表明 DLM 可以用来揭示语言的神经基础的有价值的见解。
生物化学
机器学习还使得在理解生物序列方面取得了重大进展,研究人员利用深度学习的最新进展,从原始氨基酸序列中准确预测蛋白质功能。
论文链接:https://www.nature.com/articles/s41587-021-01179-w
谷歌还与欧洲分子生物学实验室的欧洲生物信息研究所(EMBL-EBI)开展紧密合作,仔细评估模型的性能,并向公共蛋白质数据库 UniProt、 Pfam/interPro 和 MGnify 添加了数以亿计的功能标注。
论文链接:https://www.nature.com/articles/s41587-021-01179-w.epdf
人类对蛋白质数据库的标注可能是一个艰苦而缓慢的过程,而谷歌提出的机器学习方法使得标注速度实现了一个巨大的飞跃。
例如,Pfam标注增加的数量比过去十年所有其他努力的总和还要多,全世界每年访问这些数据库的数百万科学家现在可以利用该标注进行研究。
虽然人类基因组的第一稿于2003年公布,但由于测序技术的技术局限性,它并不完整。
2022年,Telomere-2-Telomere (T2T) 联盟在解决这些先前无法获得的区域(包括5个完整的染色体臂和近2亿个新 DNA 序列碱基对)方面取得的显著成就,这些区域对于人类生物学、进化和疾病的问题既有趣又重要。
谷歌的开源基因组变体caller,即DeepVariant是 T2T 联盟使用的工具之一,以用于准备发布一个完整的30.55亿碱基对的人类基因组序列。
论文链接:https://www.nature.com/articles/nbt.4235
T2T 联盟也正在使用谷歌开源的方法 DeepConsensus,为 Pacific Biosciences 长期阅读测序仪器提供设备上的错误纠正,在T2T对全面的泛基因组资源的最新研究中,可以代表人类遗传多样性的广度。
论文链接:https://www.nature.com/articles/s41587-022-01435-7.epdf
量子计算在新物理发现中的应用
在促进科学发现上,量子计算仍处于初级阶段,但其具有很大的潜力,所以谷歌正在探索提高量子计算能力的方法,以使量子在计算成为科学发现和突破的工具。
通过与来自世界各地的物理学家合作,研究人员开始使用现有的量子计算机来创建全新的物理实验,其中一个量子实验问题是:当传感器测量一个物体时,需要用计算机处理来自传感器的数据。
在传统的处理过程中,需要将传感器的数据转换为经典信息(classical information)后再进行处理。
对于量子计算来说,可以直接处理来自传感器的量子数据,将量子传感器的数据直接提供给量子算法,而无需经过测量,相比传统计算机会有更大的优势。
论文链接:https://www.science.org/doi/10.1126/science.abn7293
在谷歌最近与多所大学的研究人员合作撰写发表的一篇Science论文中,实验结果表明,只要量子计算机与量子传感器直接耦合并运行一个学习算法,量子计算可以从比经典计算少得多的实验中提取信息。
即使在目前还不成熟的中等规模量子计算机上,「量子机器学习」也可以在数据集上产生指数级的优势。
论文链接:https://arxiv.org/abs/2112.00778
由于实验数据往往是科学发现的限制因素,量子机器学习算法有可能完全释放出量子计算机的巨大威力,更强的是,这项工作的研究结果也适用于学习量子计算的输出,如很难抽取的量子模拟输出。
即使没有量子机器学习,量子计算机的一个很有前景的应用是实验性地探索那些无法观察或模拟的量子系统。
2022年,Quantum AI 团队利用这种方法观察到了第一个使用超导量子比特处于束缚态的多个微波光子的实验证据。
论文链接:https://www.nature.com/articles/s41586-022-05348-y
光子通常需要额外的非线性元素才能相互作用,谷歌的量子计算机对这些相互作用的模拟结果出乎研究人员的意料:本来以为这些束缚态的存在依赖于脆弱的条件,但实际上却发现它们甚至对相对强烈的扰动都是稳健的。
鉴于谷歌在应用量子计算取得物理学突破方面取得的初步成功,研究人员对这项技术的可能性还抱有很大的希望,将使未来的突破性发现能够产生与晶体管或全球定位系统的创造一样重大的社会影响。
把量子计算作为一种科学工具是非常有前景的!