漫谈医疗大数据建设

企业动态
医疗大数据是当前医疗信息化最热门的话题之一。然而,面对如何建设医疗大数据的问题,大部分医疗信息化从业者都是非常迷茫的。

医疗大数据是当前医疗信息化最热门的话题之一。然而,面对如何建设医疗大数据的问题,大部分医疗信息化从业者都是非常迷茫的。

我们先来看看现阶段大家对医疗大数据的期望是什么。业界广泛认为,医疗大数据目前可以应用在疾病预防、临床决策、药品研发、就诊行为分析、费用监管和分析等方面。观察这部分应用的基础对象—数据,被用于分析的数据包括就诊记录、检查报告、用药情况、费用情况等等,从EMR、HIS、PACS、LIS等系统中获取,数据源会有结构化数据和非结构化数据。然而,在实际大数据分析过程中,使用的基本上是结构化数据或者转化为结构化数据的信息,我们目前没有太好的办法对非结构化数据直接进行大数据分析,例如Pacs的影像文件,一般只能分析从Pacs图像中提取出来的病理信息来用于分析。这样,医疗大数据处理数据的类型和方式就基本确定:结构化数据以及非机构化数据提取出来的结构化信息用于复杂、快速的大数据分析应用;非结构化文件不用于分析,大数据系统提供统一存放管理非结构化数据的资源池,并且提供快速检索查询文件的能力。

先看看大数据分析拿结构化数据来做什么。例如,疾病预防应用主要分析历史的流行病相关数据,多维度归纳分析出影响各类疾病流行的因素以及影响程度大小,从而判断预测疾病流行的趋势和可能性。该应用属于事后分析,不要求实时性,但是有时效性需求,也就是越快越好,预期是在分析数据规模非常庞大的时候。分析的算法其实就是使用数据库的排序,对比,条件查询、筛选等基础操作组合成算法,数据规模不大的情况下关系型数据库完成可以胜任,数据规模达到一定程度之后,可以使用MPP DB、Hadoop Hive/Hbase等方式处理,从实际测试验证过程得知,当前阶段,采用MPP DB效率***,并不一定要用到Hadoop。部分情况下,处理该类算法,MPP DB效率会比HBase高出一个数量级。药品研发、临床决策、就诊行为分析等应用情况类似。此类应用一般要求将分析结果多维度展示和提供报告,目前看来,传统BI的展示工具是最为成熟和适用的。综上所述,使用大数据系统的MPP DB取代BI原有单机数据库,结合BI展示工具组成整体方案,是事后分析型业务***选择之一。

另一类结构化数据大数据业务是需求实时性的,例如违规用药监管,异常医保监管,过度医疗监管等,海量数据流实时不断流入,需求实时判断和监管。此类应用***的选择是Storm类的实时流处理引擎,设定简单的判定算子,所有数据经算子过滤,实时筛选出异常情况供人工处理,这里也不需要Hadoop。

我们回头再看非结构数据部分,这部分数据量是最为庞大的,目前缺乏有效的工具对医疗行业非机构化数据直接进行大数据分析,但这并不意味着医疗大数据不需要考虑非结构化数据。现有的技术条件下,对非结构化数据的大数据价值挖掘手段有这么两种:其一,抽取非机构化数据中关键信息,利用结构化数据处理手段进行分析;其二,构建非机构化数据资源池,统一存放管理原本分散的非结构化数据,部署检索引擎,建立资料库供医务人员、研究人员查阅和参考。

说到这里,可能大家会有疑问,医疗大数据仅仅这么简单?业界风起云涌的各种大数据技术、趋势、工具好像都没怎么用上呀。就我国医疗行业信息化现状来说,目前的确只能是这样。我们的医疗信息化缺乏基础,这个基础并非是指技术或者工具,这些都可以借鉴和学习,无法照搬的是医疗行业对大量数据的使用思路和使用效率,这类经验必须在实践过程中逐步积累和成型,无捷径可走。所以,对于国内医疗行业来说,机器学习、人工智能太遥远,给了也用不上或者不知道怎么用,从简单的应用开始,逐步摸索,逐步积累才是效率***的方式,无捷径可走。

医疗行业现在没有现成可用的大数据应用,为了积累大数据经验,当前阶段医疗大数据的建设都是带有一些尝试性质的,都是需要长期投入人力、物力进行开发、试用、改进的。每个行业的大数据都需要经历这样的过程,包括目前看起来大数据试用比较成熟的互联网行业,在行业应用中用出来的大数据系统才是成熟的,具备行业适用性的。

在实际的医疗大数据尝试过程中,我们发现,医疗专家缺乏大数据技术,包比如医院和卫计委,而包括IT厂商、软件开发商、互联网厂商在内大数据专家缺乏对医疗体制和医疗专业经验的认识。单独一方进行医疗大数据尝试往往很难成功,相互合作,互为补充或许是一条可行的路。华为公司作为IT与大数据技术全球领先的公司,期待与医院和卫计委的合作,共同开拓中国的医疗大数据成功之路!

责任编辑:蓝雨泪 来源: 51CTO.com
相关推荐

2018-09-21 15:26:45

大数据管理系统

2018-09-13 14:34:12

大数据BIG DATAVolume

2015-10-16 17:59:24

数据中心建设

2019-12-12 10:22:16

大数据平台大数据安全大数据

2022-12-05 11:29:14

2017-06-08 12:30:21

2015-08-31 14:16:15

医疗

2016-11-01 11:53:48

医疗 大数据

2020-06-28 16:53:48

大数据医疗疫情

2017-01-18 08:41:22

大数据画像建设

2014-03-28 15:10:09

大数据数据库集群

2017-03-15 10:30:16

麦肯锡大数据医疗

2020-12-25 13:51:49

大数据医疗大数据

2014-11-25 10:59:21

华为公安大数据

2020-12-25 14:29:00

大数据大数据应用数据医疗

2016-08-03 15:01:20

医疗行业大数据

2014-08-08 09:48:09

2023-07-07 14:15:28

2017-07-03 13:53:17

大数据大数据平台数据治理

2022-06-28 08:00:33

大数据数据灾备
点赞
收藏

51CTO技术栈公众号