医疗大数据是当前医疗信息化最热门的话题之一。然而,面对如何建设医疗大数据的问题,大部分医疗信息化从业者都是非常迷茫的。
我们先来看看现阶段大家对医疗大数据的期望是什么。业界广泛认为,医疗大数据目前可以应用在疾病预防、临床决策、药品研发、就诊行为分析、费用监管和分析等方面。观察这部分应用的基础对象—数据,被用于分析的数据包括就诊记录、检查报告、用药情况、费用情况等等,从EMR、HIS、PACS、LIS等系统中获取,数据源会有结构化数据和非结构化数据。然而,在实际大数据分析过程中,使用的基本上是结构化数据或者转化为结构化数据的信息,我们目前没有太好的办法对非结构化数据直接进行大数据分析,例如Pacs的影像文件,一般只能分析从Pacs图像中提取出来的病理信息来用于分析。这样,医疗大数据处理数据的类型和方式就基本确定:结构化数据以及非机构化数据提取出来的结构化信息用于复杂、快速的大数据分析应用;非结构化文件不用于分析,大数据系统提供统一存放管理非结构化数据的资源池,并且提供快速检索查询文件的能力。
先看看大数据分析拿结构化数据来做什么。例如,疾病预防应用主要分析历史的流行病相关数据,多维度归纳分析出影响各类疾病流行的因素以及影响程度大小,从而判断预测疾病流行的趋势和可能性。该应用属于事后分析,不要求实时性,但是有时效性需求,也就是越快越好,预期是在分析数据规模非常庞大的时候。分析的算法其实就是使用数据库的排序,对比,条件查询、筛选等基础操作组合成算法,数据规模不大的情况下关系型数据库完成可以胜任,数据规模达到一定程度之后,可以使用MPP DB、Hadoop Hive/Hbase等方式处理,从实际测试验证过程得知,当前阶段,采用MPP DB效率***,并不一定要用到Hadoop。部分情况下,处理该类算法,MPP DB效率会比HBase高出一个数量级。药品研发、临床决策、就诊行为分析等应用情况类似。此类应用一般要求将分析结果多维度展示和提供报告,目前看来,传统BI的展示工具是最为成熟和适用的。综上所述,使用大数据系统的MPP DB取代BI原有单机数据库,结合BI展示工具组成整体方案,是事后分析型业务***选择之一。
另一类结构化数据大数据业务是需求实时性的,例如违规用药监管,异常医保监管,过度医疗监管等,海量数据流实时不断流入,需求实时判断和监管。此类应用***的选择是Storm类的实时流处理引擎,设定简单的判定算子,所有数据经算子过滤,实时筛选出异常情况供人工处理,这里也不需要Hadoop。
我们回头再看非结构数据部分,这部分数据量是最为庞大的,目前缺乏有效的工具对医疗行业非机构化数据直接进行大数据分析,但这并不意味着医疗大数据不需要考虑非结构化数据。现有的技术条件下,对非结构化数据的大数据价值挖掘手段有这么两种:其一,抽取非机构化数据中关键信息,利用结构化数据处理手段进行分析;其二,构建非机构化数据资源池,统一存放管理原本分散的非结构化数据,部署检索引擎,建立资料库供医务人员、研究人员查阅和参考。
说到这里,可能大家会有疑问,医疗大数据仅仅这么简单?业界风起云涌的各种大数据技术、趋势、工具好像都没怎么用上呀。就我国医疗行业信息化现状来说,目前的确只能是这样。我们的医疗信息化缺乏基础,这个基础并非是指技术或者工具,这些都可以借鉴和学习,无法照搬的是医疗行业对大量数据的使用思路和使用效率,这类经验必须在实践过程中逐步积累和成型,无捷径可走。所以,对于国内医疗行业来说,机器学习、人工智能太遥远,给了也用不上或者不知道怎么用,从简单的应用开始,逐步摸索,逐步积累才是效率***的方式,无捷径可走。
医疗行业现在没有现成可用的大数据应用,为了积累大数据经验,当前阶段医疗大数据的建设都是带有一些尝试性质的,都是需要长期投入人力、物力进行开发、试用、改进的。每个行业的大数据都需要经历这样的过程,包括目前看起来大数据试用比较成熟的互联网行业,在行业应用中用出来的大数据系统才是成熟的,具备行业适用性的。
在实际的医疗大数据尝试过程中,我们发现,医疗专家缺乏大数据技术,包比如医院和卫计委,而包括IT厂商、软件开发商、互联网厂商在内大数据专家缺乏对医疗体制和医疗专业经验的认识。单独一方进行医疗大数据尝试往往很难成功,相互合作,互为补充或许是一条可行的路。华为公司作为IT与大数据技术全球领先的公司,期待与医院和卫计委的合作,共同开拓中国的医疗大数据成功之路!