大数据无疑已经成为业界最热点的话题之一,无论是传统的企业,还是新兴的互联网企业,都在盯紧大数据这个巨大的市场。凭借着连续14年被Gartner评为数据仓库领导者象限的Teradata,一直专注于数据仓库和数据分析领域的创新,近日,Teradata天睿公司大中华区大数据事业部总监孔宇华向记者展现了Teradata的大数据技术实力以及在大数据分析方面的创新。
Teradata天睿公司大中华区大数据事业部总监孔宇华
目前,很多企业都在进行大数据的工作,有些简单有些复杂。而孔宇华表示,大数据要从小做起,从一个应用、一个业务需求开始,通过不同的数据源、不同的数据分析工具,实现大数据的应用,最终帮助企业获得数据的价值。很多企业收集非结构化数据,而后保存到一个平台中,就认为将大数据做好了,其实不然。孔宇华认为,真正挖掘大数据的价值是要通过数据分析才能实现。Teradata想传递给客户的理念是,大数据可以从小做起,不一定是需要100个PC服务器或者等到积累1PB的数据才会做好。
在大数据分析时,孔宇华建议企业,可以从业务部门的需求开始,制定目标和方向,而不一开始就去搭建平台。当有了目标后,企业就知道需要的数据类型,而后加载少量数据,分析师可以做数据轮廓的分析,判断数据是否适合,若不适合,可以加载企业数据进行调整,若适合,加载更多数据进行分析。孔宇华强调,数据的价值不在于存储,而是在于分析,如果数据放进一个平台,通过分析才可以将数据的价值释放出来。
Aster:大数据分析的“瑞士军刀”
Teradata Aster大数据探索平台,可以汇集不同的数据源,包括结构化数据和非结构化数据,然后通过不同的分析方法,例如SQL分析、MapReduce、关联分析、路径分析、文本分析结合在一起,让数据的价值变得更加容易把控。
孔宇华将Aster形象的比喻为大数据分析的“瑞士军刀”,因为在Aster中,预置了很多分析算法,例如SQL、MapReduce、时间序列、地理空间、文字文本等。用户使用相关分析算法工具时,不用挪动数据,而是可以在数据的原始位置进行访问,调取不同的方法和角度来分析数据。
Teradata大数据解决方案——统一数据架构
大数据时代,速度代表一切,而Aster在分析层面通过四个步骤可以让用户快速从数据中获得价值,即:数据获取、数据准备、数据分析、数据展现。在数据获取方面,Aster可以直接连接Hadoop、Teradata以及其他不同的数据仓库,甚至是通过APIs连接微博。只要有APIs的平台,Aster都可以直接连接从而进行分析,因此也就减少了数据加载的麻烦;其次,在数据准备方面,Aster提供接口和工具,可以将非结构化数据转化为结构化,将结构化数据转变成可分析的模型;第三,在数据分析方面,Aster提供了不同的分析方面给用户使用;第四,在数据展现方面,Aster提供了可视化模块,并且可以连接其他BI工具,此外Aster提供了一百多种函数,用于路径分析、图分析、数据转换、统计分析等模块。
Aster创新研发成果
去年,Teradata在发布最新的Aster大数据探索平台时,也发布了Aster一些创新的研发成功,例如SNAP Framework、SQL Graph分析引擎和Aster文件存储。
SMAP Framework
SNAP Framework是介于存储系统和分析系统之间的框架,有统一的SQL接口进行访问,支持多重分析引擎和文件存储。此外,在过去的数据库行存储基础上,增加了列存储以及文件存储。在分析层面,除了SQL和MapReduce,还增加了图形分析引擎SQL-Graph,通过图形分析引擎可以快速做出网络数据图形分析。SQL-Graph图形引擎支持本机处理大规模分析图表查询以及预建图形功能,并可用于客户流失、产品关联性、欺诈侦测以及推荐引擎分析等。Aster文件存储可以提供不同存储选项,用户可以通过文件存储保存全部数据,Aster文件存储系统可以快速访问并存储PB级原始数据,提供存储管理,并且使数据真正可用于预处理。
突破R语言限制
R是用于统计分析、绘图的语言和操作环境,面向数据挖掘人员和数据科学家的一种开源统计语言及软件。根据Rexer Analytics咨询公司调查显示,使用R语言的数据挖掘人员越来越多,70%的调查对象称他们正在使用R语言。
在今年7月,Teradata通过放宽内存和处理能力限制条件,将Aster与R整合,将R的运算引擎以及索引整合到Aster中,在数据库中运行R语言,高速处理海量数据。
将R语言并行处理还有不小的挑战,例如R分散于各节点或各服务器,有利于行的独立分析处理,但不利于分析功能所需要的所有数据。因此,Teradata采取的方法是,通过Aster MPP架构来运行开源R语言,实现高效并行分析。通过整合超过100种Aster Discovery Portfolio分析功能和5000多种R工具包,实现更强大的数据分析能力。
而Teradata Aster R也有四大优势,首先是高效可靠的分析,通过Aster Discovery Portfolio分析功能,保证数据大规模并发分析;第二是高易用性,Aster R中大量预置并发分析工具包,用户无需变成即可使用;第三高可延展性,并发运行任何开源R语言工具包,并且整合开源R语言工具包及Aster分析;第四是自助服务,通过Teradata搜索网络可访问多个平台数据。
孔宇华认为,Aster与R的整合实现了强强组合,R中有很多不同的算法以及不同的分析函数展示的方法,而Aster提供了分布式的平台,不仅拥有自己的函数,还可以接纳R中的新算法,即可以通过SQL来使用Aster,也可以通过R来利用Aster平台中的资源数据。
Hadoop与Aster的不同
Aster和Hadoop同样是MPP架构,但在存储、运算引擎以及界面方面都有较多的差异,这也决定两者所擅长任务的差别。
Hadoop的底层是文件存储的系统,虽然没有MPP数据库的智能存储,但是可以更快地加载数据,其层是MapReduce做运算引擎。而Aster最多的不同在于底层的架构是数据库的存储,上层预装有不同的运算引擎,包括SQL、MapReduce、文本分析、关联分析、图形分析,可以直接支持SQL的BI和加载工具。
此外,在做分析时,Aster中有很多分析算法,50%-60%会用到SQL,而在HANA上面做分析会相对较慢。孔宇华认为,在Aster上做大数据分析会更加方便,因为精通分析的人很多都是懂得SQL语句的,其次,在Aster上做分析的速度也会快很多。因此,Aster一直作为Teradata的数据探索和数据分析的平台。
面对发展迅速的开源Hadoop解决方案,Teradata通过广受客户认可的统一数据架构实现积极对接。通过与HortonWorks合作,在Teradata统一数据架构中使用Hadoop中最实用的模块进行数据收集和转换等。此外,Teradata还提供了QueryGrid工具,运用QueryGrid,用户可以从Teradata或Aster访问其他平台,做到整个数据架构的整合。孔宇华表示,Teradata不希望每一个数据平台,例如Hadoop、数据仓库、探索平台和数据集市形成数据孤岛。而QueryGrid可以将不同平台的数据进行整合,更好地进行数据共享。
为了提升Teradata在Hadoop上的技术实力,进一步增强Teradata统一数据架构的功能和优势,Teradata最近收购了Revelytix和Hadapt两家公司的资产和人员。Revelytix拥有独特的元数据管理技术,在企业级信息集成领域拥有专业水平,为Teradata带来了全新的Hadoop数据管理和数据准备工具,可通过单一软件解决方案达成元数据集成、数据沿袭(lineage)及数据整理(data wrangling)三大功能。而Hadapt可以在Hadoop上建立数据仓库,帮助Teradata完善在Aster中的功能以及与Hadoop的结合,并且提升并推动Teradata统一数据架构不断演进,帮助加速了Teradata对统一数据架构中Hadoop的整合。
大数据落地的“天时、地利、人和”
孔宇华认为,大数据创新过程是一个试错的过程,而大数据落地要有三大要素,即技术平台、人员技能和流程制度。
用户需要选择合适的大数据平台,并且是要易于使用,能够和现有平台轻易结合;其次是人员,可以提高内部人员技能或者通过外部人员来补充技能,现在很多互联网企业都在用Hadoop做大数据分析,而传统企业要想将这批优秀人才收入囊中实属不易,为此,Teradata就专门招揽Hadoop相关人才,帮助用户更好的实施大数据;最后是流程,要结合大数据需求的敏捷项目管理方法,根据业务需求快速让技术人员利用平台来提升数据的价值。
目前,Teradata在全球已经拥有大量的客户以及成功案例,而在中国也已经与超过10个行业的用户进行合作,例如:电信、金融、保险、证券、航空、快递、零售、电商等。孔宇华介绍,Teradata在北京拥有自己的大数据分析研发团队,主要负责平台的数据库以及析函数的研发。此外,Teradata在中国还拥有大数据实施团队与实施合作伙伴,帮助中国客户实现大数据分析,最终帮助国内企业完成转型成数据驱动型企业的愿景。