在自然界中有一种物质叫做“暗物质”,从物理学家的解释来看,“暗物质”是自然界当中最充满能量的部分,如何发挥“暗物质”的作用是当代自然科学研究的话题。而在数据科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的“暗数据”,怎样发挥“暗数据”的价值。
有一种说法,人类只要利用大脑的 10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,许多企业也仅利用了数据的一小部分,而把经过巨大的开销存储着的关于流程、员工、客户和产品的宝贵数据放在数据孤岛中,无法有效利用。我们对数据的挖掘还处在一个非常初级的阶段,可将其称之为“黎明前的黑暗”阶段。
定义“暗数据”
“暗数据”是指企业已付费购买、收集以及存储在各种系统和数据存储中,但实际上目前并未使用、分析甚至访问的所有数据。我们可以将“暗数据”视为大数据的子集,它可以包括存储在 CRM 数据仓库的结构化数据、日志文件甚至来自于社交媒体的非结构化数据等所有数据。
当然,有些企业已经实施数据仓库或者大数据平台,清楚数据的存在,并正在发掘数据的价值,但他们依然存在暗数据的问题。因为实施数据仓库常常是站在IT的角度,对于IT来讲或许已经是可以利用的明数据,对于其它部门,尤其是业务部门如果没有充分有效的利用手段和方式,仍然是“暗数据”。如果您实际上无法利用付费购买的数据,那么最终您就无法对企业的整体行为形成一致观点。这意味着您将无法分析流程、合理配置资源,也无法在系统中找到代表您的专有优势的数据。
“暗数据”产生
显而易见, 没有任何组织主动采取低效、 昂贵和不明智的措施。但一系列新应用程序和大量新数据已使很多公司忽视了他们已经拥有和付费购买的数据。为何会有这么多“暗数据”存在?我们从以下四点来解释:
1、企业甚至没有意识到数据的存在
企业不止有IT部门,还有更多的业务人员、管理决策人员,当他们尝试解答疑难问题或改进工作方式时,会回避寻找并分析自己不熟悉的数据集的挑战,这种情况十分常见。不幸的是,往往由于缺乏技能、时间或能力,他们很难将正确的数据公诸于世,这在日常的工作当中是非常典型的一种场景。举例说明,有些企业表示不清楚到底有多少客户,这是真的吗?回答是否定的,因为现在的企业IT已非常完善,每一笔客户的交易信息都会存在系统当中,或许有些数据质量不是很好,但它们都是存在的,只是企业自己没有意识到。如果这些数据以整个组织都能访问的方式存储,就能为更多业务部门、项目团队提供支持,进而制定更明智的决策,并对更多假设进行测试。
2、企业意识到数据的存在,但不知道具体位置,利用的手段和方法也不足
企业已经建设了很多数据管理系统,知道数据是存在的,但如果组织的数据体系结构或复杂的数据流程起到阻碍作用,那就很难访问数据。如果各个部门都在数据孤岛中工作,并且数据保存在遗留数据存储中,那么即使是求知欲***的团队也会徒然碰壁。如果没有制定关于存储和管理所有这些数据的整个企业范围的战略,那么组织的决策质量仍将受制于内部组织架构和过时的技术。
3、实际利用数据过于昂贵阻碍了数据使用的效果
即使企业已经发现了所需的“暗数据”,通常也必须面对与在遗留系统上处理这些数据相关的一连串成本问题,如数据利用的环节过长。即便他们通过使用Hadoop此类的新软件架构,在价格较低廉的硬件上复制这些数据来努力避免这些成本,但与迁移流程和获取新技能相关联的初始成本对于单个项目而言,通常仍显得过高。这也造成了很多的数据其实仍然是未被充分使用的状态,仍然隐藏在我们的IT系统和日常流程当中。为了充分利用企业已拥有的数据,需要为更现代化的数据体系结构奠定基础,否则,您仍会继续为数据支付巨额费用,却无法承担对其进行分析产生的成本。
4、某些数据存在遵守法律的问题
如金融、电信、医疗等行业的数据量非常多,但无法将某些数据提供给任何人分析,最重要的原因之一是害怕违反法律法规的要求。对于企业而言,要使其拥有的数据具有意义,需要部署明确定义的流程和工具,以保证这些数据的安全性。Informatica 有专门的解决方案,叫做数据脱敏(Data Masking),保证数据隐私不被泄露的情况下充分利用数据。
公开“暗数据”
既然我们面临着非常多的“暗数据”,那么公开就是它的对立面,叫做数据的透明化,我们期望的结果是企业中所有数据,对企业的任何一个参与者——IT、业务、决策、财务——都是透明的,在他们想分析的时候都能找到所需的数据。
任何企业在发掘数据价值的时候,往往包括三种典型的角色:集成商、IT部门和业务部门。人们常常讨论谁才是数据的主人,一般认为是业务部门,但完成实际操作过程的却是集成商,似乎所有的报表都是集成商来做,所有的分析也是集成商完成。在数据分析数据使用中有一个常常被大家忽略的过程,被称为数据的探索和探查的过程也是由集成商来完成。这其实是业务模式的一个致命弱点,由集成商完成数据探查工作,再根据业务或者IT提的报表分析需求来使用这些数据,使用数据的主体——业务部门并没有参与探索数据,并没有亲身体验分析数据的过程。
业务部门参与数据挖掘对数据价值的实现大小关系密切。如果找集成商来做大数据平台可能也叫BIG DATA,但这个“BIG”很小;假如IT部门能充分参与架构设计和数据的探索过程,这个“BIG”会变得大一点;假如业务部门也参与可能使“BIG”变得更大,数据在企业中的流程也会缩短,业务部门会知道数据的存放位置,“暗数据”问题能够更快解决。
业务部门如何才能自我分析数据,实现自助服务?他们需要一个有效的IT支撑手段,需要IT把暗数据透明化,变成透明的数据。实现数据透明化的一个基础是数据标准化,建立标准化平台。暗 数 据存在于不同系统中,需要重新格式化、解析、筛选、标准化、整合以及细 化, 使 其 为 输 入 到 任何分 析 工 具 和 应 用 程 序 中 做 好准备。
真正释放“暗数据”潜能,让数据见光需要一定的策略变化,除了上述的要启动业务部门的自助服务的能力,以及启动IT部门的标准化构建,还有一个关键点是启动可重复利用“暗数据”的流程。大多数公司所犯的***错误是认为他们只需对其“暗数据”进行一次深入探究,这可不止是一个一次性的流程。数据只会不断增长,无论是规模、多样性还是价值,提供数据的应用程序的数量和类型也会不断变化,因此,与其一遍又一遍地解决单个“暗数据”项目,应该考虑建立一个可重复的流程。这意味着采用所需技术,建立现代化的基础架构,以使您的所有数据随时可供访问并保持一致,使其保持洁净、安全、互联互通。
“暗数据”并非仅仅表明技术开支效率低下,它还表明企业难以利用其积累起来的丰富知识,“暗数据”是一个有待发掘的潜在金矿。在我国当前新型工业化进程中,提倡大数据的前奏叫数字化,数字化能够贯通各个环节,把原来可能隐藏在工业流程当中的数据释放出来,用数据来描述工业流程,这也成为众多领先企业希望征服“暗数据”的原因所在。