【51CTO.com原创稿件】2016年11月25-26日,WOT2016大数据峰会在北京粤财JW万豪酒店召开,50多位大数据领域一线专家、数据技术先行者齐聚现场,在围绕数据智能、大数据商业、区块链、实时计算、系统架构、NoSQL等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域***实践和最热门的行业应用。
在WOT2016大数据技术峰会NoSQL技术实践主题专场,SequoiaDB巨杉数据库 联合创始人&CTO,王涛先生带来了《企业级NewSQL技术解析与应用案例》的演讲,会后记者对他进行了采访。
王涛,此前在IBM DB2北美实验室工作,负责数据库内核研发和下一代大数据架构的规划。是DB2,DPF等的专家。
一、交互是巨杉数据库主要发展方向
SequoiaDB巨杉数据库是一款企业级分布式NewSQL数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码。SequoiaDB支持标准SQL、事务操作、高并发、分布式、可扩展、与双引擎存储等特性,并已经作为商业化的数据库产品开源。
谈到分布式NewSQL数据库技术架构特点,王涛先生表示,分布式NewSQL***的特点有两个方面。
首先,跟传统的关系型数据库相比,分布式NewSQL数据据***特点就是分布式,原本存在一个节点里面的数据,现在可以把它分布到几千个节点里面,这样可以提升它的存储能力和技术能力。其次,跟同样新型的NoSQL数据库来比,分布式NewSQL***的区别在于对SQL的支持,大部分的NoSQL数据库都是以互联网起家的,而在金融、政府这样的传统行业数据库应用中,很多企业需要仍然强大的SQL支持的能力,这些也是NoSQL跟NewSQL相比***的区别。
对于巨杉数据库跟其他的NoSQL数据库对比有哪些特点?王涛先生表示,SequoiaDB从对企业级最重要的特性方面来讲,首先是对于SQL的支持,这也是所有企业在使用新型分布式数据库的时候***个想到的问题。而巨杉数据库是支持标准SQL兼容的,巨杉数据库能够让传统企业的应用系统不需要过多的调整就可以***使用新一代分布式数据库,做到SQL的兼容。其次,巨杉数据库的双存储引擎机制、Spark深度整合等都是对企业级数据库非常重要的东西。
王涛先生表示,从业务场景上来看,大数据业务目前主要分为分析类和交互类,巨杉数据库大的发展方向是以实时交互类为主。在交互类这块,对于近线数据管理和查询、非结构化数据和影像数据管理、用户画像、数据湖平台等都非常适合用巨杉数据库。
二、巨杉数据库双引擎技术以及Spark 2.0深度集成
巨杉的双引擎,一个是记录引擎,一个存非结构化文件引擎,类似于软件定义存储的概念。目前,大家在用分布式结构数据库的时候,很多用户希望把图片、照片或者影像也存到这个地方,因为数据量很大。这就需要能够既支持记录级别的存储,也能够支持图像块结构的存储,这两者使用的机制是完全不一样的,其中一个是记录的存储引擎,一个是块存储引擎。块存储引擎可以把它理解成软件定义存储,它可以把一个大的文件切成很多碎块,通过散列的方式,散列在不同的机器里面,这是两个本质的区别。
巨杉数据库就通过双引擎的机制,让用户将结构化数据、非结构化数据同时存储,大大提升了效率。
Spark2.0深度集成则是巨杉数据库企业版的另一大特性,王涛先生表示,Spark作为内存计算框架是计算层的一部分,巨杉数据库则定位于存储层。这样,Spark2.0把两个层面分开,两者结合就能够提供分布式的计算分析,而数据分析、机器学习都是Spark2.0提供的东西。
巨杉目前这种分布式数据库与分析计算层的混搭互补是硅谷大数据领域***的主流趋势,真正走在了前面。
三、NewSQL代表数据库的未来
谈到分布式数据库未来的发展趋势,王涛先生认为,当前来看,大家都在谈NoSQL和NewSQL。从传统来看,NoSQL本身针对的是从互联网起家的一些玩家,这些玩家可能对于SQL和其他的企业级的功能并不是很重视。
但是,未来随着新一代分布式数据库在各个行业的不断应用和普及,NoSQL和NewSQL这两者肯定是逐渐的过程,NoSQL数据库会不断注重企业级功能如SQL支持的提升。数据库未来将会是一个分布式、高性能的立足实时处理和在线服务同时作为数据源支持上层的数据分析应用的定位。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】