从各个发展趋势来看,产业与科技正面临前所未有的快速变化,在未来也将会是如此。因此,数据分析产业建立一套灵活的、「以数据为中心」(data-centric)的服务架构是很重要的,才能在如此变动的环境中维持竞争优势。
Gartner归结出在将来的三到五年间可能颠覆数据分析产业的十项科技趋势,并建议数据分析工作者应评估这些趋势,以因应对所经营策略可能带来的影响并做相应的调整。
趋势一:增强分析(Augmented Analytics)
增强分析指在数据分析和商业智能(business intelligence)的领域中应用机器学习、人工智能和自动化等科技辅助分析人员以进行数据准备、产生洞察和解释洞察等数据分析工作。运用增强分析将能实现整合人工智能和数据分析两个专业领域,为企业提供重要的企业洞察。此外,增强分析将有助于让非专业的数据分析人员,或称为「素人资料科学家」(citizen data scientist),也能生产出重要的企业洞察。Gartner将增强分析趋势造成数据分析专业门坎降低的现象,称为数据分析的「民主化」(democratization)。
Gartner预估,到了2020年,增强分析将会是带动数据分析产业和商业智能成长的重要驱力。另一方面,对于数据科学、机器学习平台和嵌入分析(embedded analytics)的需求也会跟着提升。随着相关技术的成熟,Gartner建议数据分析工作者应建立计划,将增强分析整合进数据分析服务中。
趋势二:增强数据管理(Augmented Data Management)
增强数据管理指运用机器学习和人工智能引擎让企业的数据管理系统能具有自我调适(self-configuring)的功能,减少在数据管理上面的人力成本,让专业人员可专注于更高附加价值的业务上。
增强数据管理影响所及的范畴,包含:数据质量、后设数据管理、主数据管理、数据整合和数据库等数据管理层面。尤其是在于对后设数据的处理,Gartner指出,增强数据管理的关键流程便是将过往被视为次要的后设数据(metadata)运用于机器学习的机制中,让后设数据成为增强数据管理的主要数据。
Gartner预测,到了2022年底,结合机器学习和自动化管理的增强数据管理发展趋势将会让数据管理的人工操作减少45%。
趋势三:自然语言处理/会话分析(Natural Language Processing/Conversational Analytics)
Gartner估计,在2020年将会有五成以上的数据分析查询(query)是以文字搜寻(search)或语音的方式进行。也就是说,将来使用者会以更加人性化的方式或甚至以对话的方式来和数据互动。
自然语言处理或会话分析的发展趋势,将可让数据分析的结果有更广泛的应用情境,例如客服部门或柜台等办公室前端的人员,以及能让更多人以更简便的方式取用到数据分析的结果。
趋势四:图形分析(Graph)
图形分析指以神经网络的形式仿真数据与数据之间的关系网络,并藉以探索未知的问题、串连不同领域的数据库或以更贴近人类思维的方式管理数据。
图形分析的关键技术在于对图形数据库(graph database)的运用与管理。图形数据库是以数据节点以及数据节点之间的路径关系所构成的数据库结构。运用图形数据库将有助于分析人员处理更复杂的问题或是整合不同层面的数据,例如将饮食规划、医疗数据和保健新闻整合运用于运动app。
Gartner指出,到了2022年,图形分析的运用比例将会以100%的成长率倍速成长,并解决传统关系数据库所无法应付的难题。
趋势五:商业化的人工智能和机器学习(Commercial AI and machine learning)
运用于开发人工智能和机器学习(AI/ML)的开发环境,目前以开源(open source)平台为大宗。商业机构则是以提供企业化服务为主,例如与AI/ML相关的项目管理、模型管理、重复利用、透明化和整合服务等,这些服务则是目前开源平台较缺乏的。
不过Gartner预测,到了2022年,75%的新使用者将会使用商业机构(如亚马逊、Google和微软)所提供的AI/ML解决方案,而不是使用来自开源平台的解决方案。运用商业机构所提供的AI/ML解决方案将有助于分析人员快速将AI/MI投入工作流程中,并加速提高企业价值。
趋势六:数据结构(Data Fabric)
由企业或各种部门所搜集产生的数据数据持续爆炸性的增长,但这些数据数据却又分处在各种不同的储存空间中,例如存放在亚马逊的S3、微软的Azure或谷歌的Google Cloud Platform等公有云上,又或是存放在企业建立的私有云中,同时这些数据数据也可能建立于不同的文件系统(file system)或传输协议,因此造成数据群集(cluster)之间取用的困难,而形成所谓的数据孤岛(data silo)。
为了要解决数据孤岛的困境,数据结构的概念是建立一套可以整合各种不同云端服务以及桥接各种文件系统和传输协议的操作系统。运用数据结构将可以更有效率的运用与分享数据数据,减少因数据孤岛而造成的数据重复、转移困难等资源的浪费。
Gartner认为,在2022年左右,为了企业服务而建造的数据结构将会成为企业的基础设施,同时也会诱发企业投入成本于改良数据数据基础设施。
趋势七:可解释人工智能(Explainable AI, XAI)
随着AI的运用层面越来越广泛,对于AI的可信度、了解程度和可修正程度的要求也相应的提升。现行的AI虽然可以透过机器学习的方式建立起可应用的AI模型,但在实际的应用场景中,AI就如同一个黑盒子(black box),只能提供使用者一个结果或决策,而无法进一步说明是依据什么推论过程而得出该结果或决策,也可能导致使用者因看不见又摸不着的AI系统而产生出错误的决策。
可解释人工智能是在AI研究领域中的一种新趋势,其主要概念便是要让AI在处理资料的过程中能同时对使用者提供回馈,让使用者可以了解为什么AI会得出该结果或决策,藉以提升使用者对AI的可信任程度或是在必要时能修正AI。
依据Gartner预估,2023年以前将会有75%的大型企业开始雇用AI行为研究人员和消费者隐私保护专家来预防企业潜在的品牌与名誉风险。
趋势八:区块链(Blockchain)
对数据分析产业而言,区块链技术最重要的两项优势在于,第一,区块链可以细尽的记录数据的来源去向或是交易纪录。第二,区块链可以建立透明化的关系网络。
运用区块链技术,虽然可以建立起具有可信度的、无法窜改的数据网络,但Gartner强调,区块链仍然无法取代对数据分析产业最重要的工作流程,即数据的储存、管理及在商业上的应用。此外,Gartner还指出,目前区块链技术的成熟度还不足以让区块链拥有在虚拟货币以外的大规模应用机会。
Gartner认为,在2021年以前,账本式数据库管理系统(ledger database management system)将会足以取代大部份的私有区块链。
趋势九:连续智慧(Continuous Intelligence)
连续智能意指在企业运作的流程中整合实时性(real-time)的数据分析工作,让企业可以随时从数据数据中得出洞察,并进而制定企业当下所应实行的决策。连续智慧与传统商业智慧(business intelligence)不同之处在于,连续智慧强调运用AI/ML和自动化等技术,取代传统分析数据所需的人力,并且大量且实时的产出企业所需的决策依据,而非是如传统企业决策流程以阶段性或费时的方式产出决策。
Gartner预测,在2022年以前将会有过半的大型企业采用连续智慧帮助他们依据实时的数据数据做出企业决策,同时也协助大型企业建立对产业环境变动的警觉能力。
趋势十:持续性内存服务器(Persistent Memory Servers)
持续性内存是一种介于DRAM与闪存之间的一种新兴内存技术。持续性内存保有DRAM的指令周期,同时也拥有闪存的非挥发性(non-volatile),即使断电后数据也不会遗失。
过去在执行数据分析时,尤其是在网络或云端作业当中,为了加快指令周期而将数据保存在DRAM中同时也在DRAM内完成运算,省去系统和硬盘之间的读取时间。但随着数据量越来越庞大,DRAM空间则显得不足、昂贵。因此,持续性内存的出现将能提供一种符合经济成本同时也具有稳定性的内存解决方案。
Gartner预估,持续性内存将持续成长,在2021年以前将会提供DRAM内运算的整体需求量的10%。