如今的世界仍然由关系型数据库(简称RDBMS)所掌控,不过以Hadoop及NoSQL为代表的新型技术方案已经开始快速兴起并开始在结构化数据领域留下自己的足迹及影响。
这正是由戴尔软件公司赞助的Unisphere调查报告所发现的一大关键性转变,其中指出目前75%的企业数据仍然被牢牢锁定在关系型数据库当中——对于大多数企业来说,主要为甲骨文数据库以及微软SQL Server。更令人意外的是,在全部组织机构当中,只有不足三分之一在采取积极的非结构化数据管理机制。
现在不是大数据时代么?这些企业到底还生活在什么年代?
有趣的是,虽然调查报告揭示出了NoSQL与Hadoop在接纳与实施层面的显著增长,但其***发现却在于、真正了解企业关键性数据该如何加以管理秘诀的仍然是那些保守派数据库管理员。
从结构化方案到结构化数据
关系型数据库可以说是人类技术发展历史上的一次伟大创新。早期的数据库方案(例如IMS)强迫开发人员提前考虑查询机制设计及架构实现思路,这往往会在数据需要进行变更时对灵活性造成巨大限制。
不过,关系型数据库的SQL(即结构化查询语言)会将查询设计从架构设计当中解耦出来,从而允许开发人员以更具信心的方式专注于架构设计、从而在未来的使用中根据需要实现数据查询。这一显著转变极大提升了数据库方案的可访问性,从而使其更为强大。
不过随着非结构化或者半结构化数据的不断涌现,原本舒适安乐的关系型数据库领域开始面临着一波又一波重压与挑战。大部分此类新型数据是由被Geoffrey Moore描述为所谓参与系统所生成,甚至在过去几十年来这类数据就已经开始在记录系统中出现(例如ERP以及CRM系统)。总而言之,当数据本身在变化、速度以及容量规模方面拥有可预测性时,关系型数据库依然在发挥着不可替代的关键性作用。
但我们的大数据世界可绝对不会老老实实遵循以下预测轨迹。
即便如此,未来的到来仍然需要经过相当长的一段时间。有鉴于此,无怪乎我们会在Unisphere的调查报告中看到受访者们仍然将主要关注重点放在结构化数据身上:
·83%的企业认为,交易性数据(其中包括电子商务)的持续增长将成为所在组织内结构化数据总量增长的最主要来源,而51%的受访者则认为管理数据亦有所增长——例如ERP系统。
·尽管目前已经有越来越多的行业开始将社交数据的不断增殖纳入议事日程,但内部文档的创建仍然被视为非结构化数据总量增长的首要推动力,并得到了超过50%受访者的认同。
尽管这类数据具有关系型数据库友好属性,但同样值得指出的是,其对于NoSQL与Hadoop的依赖性也在日益提高:
·在全部正在使用MongoDB的受访者当中,约有70%比例运行的数据库数量在100套以上,30%比例所运行的数据库数量超过500套,而且这部分受访者有接近60%供职于员工数量超过五千名的大型企业。
·在目前正在使用Hadoop的受访者当中,约有70%比例运行的数据库数量在100套以上,45%比例所运行的数据库数量超过500套,而且这部分受访者有三分之二左右供职于员工数量超过一千名的企业。
既然非关系型数据技术方案的表现如此出色,为什么普及程度仍然不尽如人意?答案(也许)在于,数据库管理员应当为此负责。
#p#
为什么普及程度不尽如人意?
正如报告所指出,在所在企业同时采用Hadoop与NoSQL的受访者当中,约有72%比例需要由数据库管理员负责管理非关系型技术方案。事实上,这部分数据库管理员占据了受访者群体的48%比例; IT事务主管则占据了另外20%比例。
这些角色在面对领先性技术的采纳需求时往往处于滞后——而非领先——位置。这部分数据库管理员的整个职业生涯紧紧围绕着甲骨文数据库或者微软SQL Server而建立,因此我们也可以理解其仍然固守于自己所熟知的这一切。
调查报告同时发现,只有约10%的受访者采用了NoSQL数据库(而且有超过半数受访者表示其在未来三年内没有采纳相关方案的计划),而使用Hadoop的受访者比例也仅为20%(其中57%受访者表示其在未来三内年没有采纳相关方案的计划)。由此可以得出结论,如果我们将这部分群体作为推广更多现代数据技术的主力军,那么所得到的意见与结论必然较为负面。
事实上,最令人意外的是那些正在运行NoSQL与Hadoop方案的受访者同样给出了消极的回应。
换个角度看,在我们意料之中的是,此类受访者其实根本没有什么空间可以发挥或者说选择。要想实现当下企业所需要的规模化与灵活性水平,现代数据技术的重要性正表现得愈发重要。
这部分接受调查的受访者还宣称,他们的主要关注重点在于结构化与非结构化数据的规模增长(占66%),以及云计算带来的影响。他们目前还没能将这两大趋势联系起来,然而二者所带来的正是大数据时代下的标志性产物——Hadoop与NoSQL。
#p#
远超你的想象
不过其它以非数据库管理员受访者为主要受众的调查报告则给出了不同的结果。
因此,Forrester公司自己的调查报告显示NoSQL目前已经获得了高达20%的采纳比例,而这一数字将在2017年迎来倍增。至于用于实现数据库优先级排序的DB-Engines(根据各类求职数据以及领英信息等等)则指出,目前在前十大人气数据库当中已经有三款属于NoSQL,且排名甚至高于DB2以及Postgres等已经相当成熟的关系型数据库。
而在Hadoop方面,没错,451研究报告(自2013年起)显示Hadoop所把持的全球企业整体存储容量尚不足3%,不过Gartner则强调称对于大数据库、具体而言特别是Hadoop、的接纳趋势将表现得愈发明确。每一年,Gartner方面都会向企业客户询问其大数据发展计划,在其之中Hadoop往往占据着重要比重,而且很多使用企业已经明显度过了概念验证阶段:
几年之前,Billy Marshall曾经指出“CIO们是***知情的群体”,表示CIO往往对于企业内开源方案的大规模介入一无所知。时至今日,Hadoop与NoSQL的情况也遵循同样的态势。
不,Hadoop与NoSQL当下的地位与普及度还远远无法与甲骨文数据库或者微软SQL Server相比肩,而且它们也不适用于传统用例。然而随着企业开始着眼于通过更出色的方式对总量持续增长的非结构化或者半结构化数据加以存储及处理,数据库管理员们将不得不使用Hadoop与NoSQL。理由很简单——他们别无选择。
原文标题:Big data has changed things less than you think