寻求从公司所收集的数据中获得业务价值的IT领导者一直面临着无数挑战。也许最难以理解的是失去了对那些被创建的、经常存储的、但很少与之交互的数据进行利用的机会。
这种以物理学中的暗物质命名的所谓“暗数据”,是在经营流程中例行收集的信息:它是由员工、客户和业务流程所产生的。它可能是由计算机、应用程序和安全系统所生成的日志文件。也可能是出于遵从性的目的而必须保存的文档,以及永远不应该保存但仍然保存了的敏感数据。
根据Gartner的说法,你的企业信息世界中的大多数数据都是由“暗数据”组成的,许多公司甚至都不知道他们拥有多少此类数据。存储数据会增加合规性和网络安全风险,当然,也会增加成本。
弄清楚你拥有哪些暗数据、它们保存在哪里以及其中包含哪些信息是确保这些暗数据中有价值的部分是安全的,而不应该保存的部分则会被删除的关键步骤。但是,发掘这些隐藏数据的真正优势可能在于将其用于实际的业务。
但想要挖掘暗数据并非易事。它有各种各样的格式,可以完全非格式化,例如,可能是被锁在了扫描文档或音频和视频文件当中。
以下是一些企业将暗数据转化为商业机会的方法,以及业内人士对希望利用暗数据的IT领导者的一些建议。
来自赛车手的编码音频
五年来,Envision Racing一直在收集100多场E级方程式赛车的录音,每场比赛都会有20多名车手参加。
“广播流在开放频率上可供任何人收听,”Genpact全球分析主管Amaresh Tripathy说。Genpact是一家咨询公司,正在帮助Envision Racing利用这些数据。
此前,英国赛车队的赛车工程师试图在比赛期间实时使用这些音频传输,但车手所使用的代号和首字母缩写词使其难以被理解和利用,但是,了解其他车手所说的内容有助于帮助设想赛车手的赛车策略,Tripathy说。
“例如何时使用进攻模式。何时进行超车。何时该刹车。”他说。
Envision Racing还从自己的汽车上收集了传感器数据,如轮胎、电池和刹车,并从供应商处购买了外部数据,如风速和降水量。
Genpact和Envision Racing合作,解锁了这些数据流的价值,并利用自然语言处理所构建的深度学习模型对它们进行了分析。这个流程花了六个月的时间,从准备数据管道,到接收数据,到过滤噪音,再到产生有意义的对话。
Tripathy说,人类需要5到10秒才能弄清楚自己在听什么,这种延迟使得无线电通信变得无关紧要了。而现在,由于人工智能模型的预测和洞察,他们现在可以在一到两秒钟内就做出反应了。
今年7月,在纽约举行的ABB国际汽联电动方程式世界锦标赛上,Envision Racing的车队获得了第一名和第三名,Tripathy将这一结果归功于利用了以前的暗数据。
暗数据掘金:人工生成的数据
Envision Racing的音频文件是人类生成暗数据的一个例子,它旨在供其他人使用,而不是供机器使用。数据存档平台提供商ZL Technologies的联合创始人兼首席执行官Kon Leong表示,这种暗数据对企业来说是非常有用的。
“它对于理解企业人性化方面的每一个要素,包括文化、绩效、影响力、专业知识和参与度,都具有难以置信的强大功能。”他说。“员工每天都在分享绝对海量的数字信息和知识,但到目前为止,这些信息和知识在很大程度上都尚未得到开发。”
电子邮件、消息和文件中所包含的信息都可以帮助企业获得洞见,例如企业中最有影响力的人是谁。“公司80%的时间都花在了沟通上。然而,分析所处理的数据往往只反映了我们所花费的1%的时间。”
处理人类生成的非结构化数据具有独特的挑战性。例如,数据仓库通常就不是用来处理这些通信的。此外,收集这些通信也可能会给公司带来新的问题,涉及合规性、隐私和法律发现。
“这些治理能力在今天的数据湖概念中并不存在,事实上,通过将数据收集到数据湖中,你可能又创造了另一个竖井,增加了隐私和合规性风险。”Leong说。
相反的,公司也可以将这些数据留在当前所在的位置,只需添加一层索引和可搜索的元数据。保留这些数据还将使其保持在现有的合规性结构之内,他表示。
有效治理是关键
处理价值和来源有问题的暗数据的另一种方法是从可追溯性开始。
《数据可观测性基础》一书的作者Andy Petrella说:“暗数据现在被认为是一种可以利用的未开发资源,这是行业的一个积极发展。”该书目前在O'Reilly以预发布的形式提供。Petrella还是数据可观测性提供商Kensu的创始人。
“利用暗数据的挑战在于,人们对它的信心很低。”特别是关于数据收集的地点和方式,他说。“可观察性可以使数据谱系透明,因此是可追溯的。可追溯性实现了数据质量检查,从而使得人们对使用这些数据来训练AI模型或根据其带来的智能来采取行动也充满了信心。”
专注于监管、风险和合规性问题的全球咨询公司StoneTurn的董事总经理Chuck Soha也认为,处理暗数据的通用方法——把所有东西都扔进数据湖里——会带来巨大的风险。
这在金融服务行业尤其如此,该行业的企业多年来一直在向数据湖发送数据,他表示。“在一个典型的企业中,IT部门会将所有可用数据与一些基本元数据一起转储到一个地方,并创建与业务团队共享的流程。”他说。
这适用于内部拥有必要分析人才或为特定用例聘请了外部顾问的业务团队。但在大多数情况下,这些举措只是取得了部分成功,Soha说。
“首席信息官们从‘不知道自己不知道’转变为了‘知道自己不知道’,”他说。
相反,公司应该从数据治理开始,了解存在什么数据,它可能会有什么问题,而其中的数据质量会是首要问题。
“利益相关者可以决定是清理和标准化它,还是从更好的信息管理实践开始。”Soha说,而致力于从包含不一致或冲突信息的数据中提取见解将是一个错误。
Soha还建议将各个业务部门已有的良好运营数据联系起来。弄清楚这些关系可以产生快速而有用的见解,并可能不需要立即查看任何暗数据,他说。“它还可能识别出可以优先考虑的空白,然后在暗数据中开始寻找填补这些空白的地方。”
最后,他说,人工智能在帮助理解剩余的非结构化数据方面也非常有用。“通过使用机器学习和AI技术,人类可以只查看1%的暗数据,并对其相关性进行分类。”他说。“然后,强化学习模型就可以快速生成剩余数据的相关度分数,进而更仔细的观察数据的优先级了。”
利用AI来提取价值
用于处理暗数据的常见人工智能解决方案包括了亚马逊的Textract、微软的Azure Cognitive Services、IBM的Datacap,以及谷歌的Cloud Vision、Document、AutoML和NLP API。
在Genpact与Envision Racing的合作中,Genpact在内部编写了机器学习算法,Tripathy说。他说,这需要Docker、Kubernetes、Java和Python的知识,以及NLP、深度学习和机器学习算法开发,以及需要MLOps架构师来管理整个流程。
不幸的是,这些技能都很难获得。Splunk去年秋天发布的一份报告显示,在接受调查的1300多名IT和商业决策者中,只有10%到15%的人表示,他们的企业正在使用人工智能来解决暗数据问题。缺乏必要的技能是利用暗数据的主要障碍,仅次于数据本身的数量。
风险与机遇并存
与此同时,暗数据仍然是一个越来越多的风险和机遇的宝库。根据行业的不同,对企业数据中黑暗部分的估计会从40%到90%不等。
根据由Quest赞助的Enterprise Strategy Group 7月份的一份报告,平均而言,有47%的数据是暗数据,而20%的受访者表示,他们的数据中有超过70%是暗数据。Splunk的调查也显示了类似的结果,平均55%的企业数据是暗数据,三分之一的受访者表示,他们的企业数据中有75%或更多的是暗数据。
在情况好转之前,还可能会变得更糟,因为60%的受访者表示,他们的企业中有一半以上的数据还根本没有被捕获,其中的大部分甚至都没有被理解为是存在的。随着这些数据被逐渐发现并存储,暗数据的数量还将继续上升。
首席信息官们是时候制定一个应对这种情况的计划了,并着眼于充分利用任何有望为企业创造新价值的暗数据。