数据架构对推动人工智能和医学的未来发展至关重要

大数据 人工智能
新冠疫情不仅凸显了速度对医学发现的重要性,而且还凸显了数据科学和人工智能为这种加速提供帮助的重要性。

新冠疫情不仅凸显了速度对医学发现的重要性,而且还凸显了数据科学和人工智能为这种加速提供帮助的重要性。例如,机器学习在医学领域的应用近年来取得了重大进展,通过人工智能发现的药物分子已经用于人体试验。尽管如此,英国艾伦图灵研究所最近发布的一份调查报告表明,数据收集、使用、存储、处理和与不同系统集成的困难(即缺乏强大的数据架构),阻碍了采用人工智能工具以应对新冠疫情的努力。

为了充分挖掘人工智能的潜力,企业需要整理好他们的数据,尤其是医疗机构和制药厂商。

数据日益重要

尽管很多医疗机构和制药厂商在药物和医学发现等方面付出了巨大努力,特别是针对新冠病毒进行开发,但它是一个漫长、复杂且成本高昂的过程。更不用说其成功率很低——根据调查,药物开发的整体失败率高达96%。这就是数据可以发挥重要作用的地方,需要更新方法,提高药物开发的潜力,以降低失败率。

如果没有人类基因组数据,就无法全面捕捉导致疾病的所有元素,从而无法获得更广泛、更深入的了解。这就需要进行大规模基因组测序,以便能够发现和验证关键的遗传变异。收集到的更多信息和见解可以让企业可以采取更明智的措施,降低药物开发失败率。利用这些数据创建机器学习算法也可以实现药物开发管道的自动化,加速药物发现。

另一个例子是,QSAR(定量结构-活性关系)模型能够通过减少合成的药物化合物数量来提高对新化学结构的预测准确性,并降低成本和时间。通过转移知识和结合从丰富的历史数据中学习,预测分析也可以用于药物开发和生产。然后可以使用这些数据来发现新药物,并加快开展实验。

人工智能已经在药物开发、发现和临床试验过程中发挥重要作用,使研究机构有机会通过现代数据和分析方法加速临床研究。

数据的挑战

尽管取得了这些进步,但分析这些数据都带来了自身的挑战。现在有如此多的生物和医学数据可用,要快速获取所需的见解比以往任何时候都要困难。如果不能正确利用这些数据,就毫无意义。此外,基因组数据尤其需要大量存储、专门的软件来分析它并引发许多数据管理、数据共享以及隐私和安全问题——重要的是要记住这些通常是高度敏感的私人信息。

研究机构和厂商面临的问题是,这些数据通常是高度分散的,使用传统架构难以支持对这么多不同数据的分析。仅是找到用于分析所需的正确数据就可能需要花费数周的时间。

生物技术开发商Regeneron公司当时就面临着这些问题,因此致力于解决处理性能和可扩展性问题。该公司面临的问题是,其数据团队没有分析可用的PB级基因组和临床数据所需的资源;不能充分利用自己收集的数据。虽然现在能够收集比以往更多的数据,但还要努力处理这些海量数据集。

数据架构的作用

这就是Data lakehouses可以发挥重要作用的地方。医疗机构简化其基础设施和运营以提高生产力和成功概率至关重要。只有将数据全部集中在一个统一且易于访问的数据分析平台中(例如Lakehouse),数据才能充分发挥其潜力。简化的Lakehouse基础设施可实现更大的可扩展性、自动化和大规模机器学习,以加速药物开发。统一平台还可以创建交互式工作空间,以提高药物生命周期各阶段的透明度和协作。数据和见解可以在团队之间轻松共享,同时确保可靠性和维护安全性以保护敏感数据。因此,为了更快地发现药物和治疗方法,需要加快整体药物靶点识别速度,开发团队可以同时在多个疾病领域开展工作。

另一方面,处理传统架构和复杂的基础设施很费时间,尤其是设置正确的基础设施并进行维护以支持必要的分析。这使开发团队难以专注于分析。通过提高自动化程度,例如在出现任何系统故障时自动切换集群管理之类的操作,团队可以在DevOps上花费更少的时间,并专注于更高价值的任务,即药物开发和发现新的治疗方法。当Regeneron公司采用提供更强大数据架构的新平台之后,找到用于分析的正确数据从三周缩短到两天,可以帮助支持更广泛的研究。因此,数据架构是使数据可用并能够回答改进药物发现的问题的关键。

除了实现临床可预测性和对数据沿袭的访问之外,Lakehouse平台还允许研究人员利用可重复的、基于机器学习的系统来生成和验证假设,从而使他们能够对自己的时间和研究做出更有针对性的决定。

真正发挥数据的潜力

数据在医疗保健行业中具有至关重要的作用,特别是在药物和医学发现方面,但企业现在必须进一步推动这一点,以充分利用数据的潜力。如果没有强大的数据架构,药物发现之类的高失败率不会很快降低,通过集中的、可扩展的平台来简化操作,企业可以获得他们需要的见解,并加速药物发现。整理数据只是第一步,下一步是建立必要的数据架构。

 

责任编辑:姜华 来源: 企业网D1Net
相关推荐

2021-01-19 11:19:33

数据治理人工智能AI

2021-09-13 16:07:02

人工智能AI深度学习

2023-10-23 16:09:57

人工智能AI

2021-02-04 10:55:04

大数据教育行业大数据应用

2021-09-30 10:08:04

人工智能AI企业

2022-07-10 15:02:51

人工智能气候变化数据

2017-08-13 12:27:29

大数据人工智能技术

2023-10-07 16:11:52

2021-10-11 10:38:23

人工智能AI深度学习

2023-02-13 16:44:09

2023-03-13 10:06:43

数据人工智能

2022-11-03 09:24:13

智慧城市大数据

2021-01-15 10:42:50

混合云托管数据中心公共云

2020-10-15 09:32:50

物联网数据技术

2021-06-21 09:00:34

大数据物联网

2020-06-22 14:14:01

云计算人类服务器

2022-08-19 10:28:12

人工智能生物技术

2022-08-30 09:13:20

人工智能生物技术

2017-12-19 11:20:25

人工智能云计算管理工具

2022-07-06 17:31:10

人工智能战略机器学习
点赞
收藏

51CTO技术栈公众号