最近引起热议的术语暗数据,确切的说,就是来自于大数据的阴暗面。尽管暗数据这个名字听起来不吉利(让人联想到一个少年哥特乐队会取的绰号),但是或许更加的准确。如果尽量减少不良的预感,暗数据更像是是大数据中光明的一面。
大部分的暗数据都被分类于结构造成的信息缺乏之中,而且,这些数据只被使用过一次,最后,就被储存在逻辑混乱,数量庞大的其他社群之中了。实际上,一个信息系统产生的80%的文档都未被二次使用。
那么,在我们进一步研究暗数据到底是什么(以及暗数据能够造成多大的影响)之前,我们必须要了解这个术语是如何出现的。简而言之,当信息管理系统遭到频繁的挑战,暗数据的出现应该看做一种警示。换而言之,不是我们如何管理信息,而是我们为什么要管理信息。某些数据,应该被隐藏起来。例如质量体系中的审计日志和训练记录等作为合乎规格的证据,就应该注意存储,加强管理。万一系统和进程被审核,这类数据就会被用到。作为一个IT人的观点,这种故意而为之的隐藏行为,可以起到一个保证数据安全的功能,同时,能够预防数据被非法入侵。
但是当频繁使用的内容在无意之间变成了暗数据的时候,这不仅仅是一种不方便,而是一个严峻的问题。当一个许多年前的投资建议书忽然消失,因而必须重建的时候,由此带来的后果不仅仅是重新修改以及更改用途,更会造成时间的浪费,做无用功。或者,当客户需要技术支持的时候,作为一个技术支持工程师必须能够浏览客户的所有的历史记录,即使所需数据分散在无数的业务解决方案以及文档存储库之中。
专家的意见:从失意之路转化到成功彼岸
自从暗数据这个名词出现以来,它被冠上的定义仍然有些悚人听闻,但是,专家们抛开其负面的问题,也就是说,将注意力投向暗数据的潜在价值,即最大程度的利用企业的信息资产。
Gartner,把暗数据当做一种积极的“闹钟”,提醒企业应该改变未被利用的数据的现状。“当常规的业务活动开展时,结构的收集,处理以及存储的信息就会转变成暗数据,尤其当这些数据不会被再次使用之后。”同样,Forbes认为暗数据由过街老鼠转变为香馍馍只有一个办法,就是将这些数据运用在其他的业务之中。“暗数据产生于不断增加的复杂的加工进程之中,由此,使之具备了规划未来产业形态的能力。”
将暗数据加入上下文之中,加入元数据的工作之中
最先提到暗数据时,我们首先会联想到它是对信息管理的一种挑战。现如今再提及暗数据的时候,我们会从一个更加理智的方面,把它看做一种管理利用现有信息的手段。由引擎驱使的就是元数据——从字面上看,就是关于数据的数据,可以在一个开放的领域内,进行确认,链接以及选取相互渗透的信息。
至于如何实现该建议,我们应该扩展自己对于元数据的使用方法,来创造一个更具整体性的商业观点,而不是局限于自身对元数据的观念。元数据包含着特殊的属性,它不仅仅和系统中的关键元素相互联系,同样,也可以智能地被项目、客户、工作流、状态栏以及其他的因子用于操控进程、分类数据。信息财产的价值只有当提及与其相关的元数据的总量,才能展现出来。
当驾驶员在路上需要物件来照亮的时候,对比于暗数据,元数据就像是一组全方位的车前灯,使用它的目的非常明确。元数据能够通过一个或多个代码库阐明这些关系,或者通过一个ERP系统和CRM系统,也能够确认信息在一个相容的环境下被读取,存储以及分享。元数据可以提供一个简明扼要的方式,来查找数据源或者历史信息,在此同时,可以确保工作流和业务流程都已被合理的管理。
更深层次的挖掘这个想法之后,就会发现,元数据也可以组成关于文件的发展和循环的信息,而这些记录更是包含了客户、流程、以及涉及到应用的创新、修订、存档、保留和销毁。完全能够和粒度细节相媲美、深度挖掘如评审、批准以及存取许可改变的确切时间戳。
从灰暗面到光明面:管理元数据
正因为暗数据是大数据的萎靡面,要扭转这样的局面只能依靠对元数据的管理。而且,IT行业的管理者在管理结构的时候也会获得更多的灵活性。把元数据当做一个微锚节点加入到文件之中,可以保证所有的企业信息都是可查找的,可利用的,可输出的——无论是任何种类的文件,格式和对象均可。
在这样的模式下企业就会发现,元数据常驻的时候,重要的数据就变少了。但是,信息该被最好的分类管理,以实现信息使用和信息价值的最大化。通过单独管理元数据,组织可以获得一个更为全面的企业内容的观念,即使与元数据相关联的信息中没有出现新的文件,如审计和偏差,元数据也可以提供一个过程和流程,使之变成自己的财产。
因此,当我们把暗数据当做一种未被充分利用的信息,就可以看出元数据包含了像素,如果你愿意,照明信息资产的连通和连配,用以创造一个观察信息的360度的视角。这种对信息管理的全景方法,不仅仅将暗数据予以利用,也使得分散的信息能够被更直接的运用。