甲骨文公司副总裁及大中华区技术产品事业部总经理吴承杨就企业如何利用大数据来帮助企业走向精准化管理谈到,企业需整合结构化和非结构化数据,从而获得全且精准的数据来实现企业的商业价值。甲骨文企业级用户大数据除分析预测数据外,还可保护用户的投资。
大数据正在给商业世界和人们的生活带来哪些改变?
举个简单的例子,现在大家都讲是精准化营销,也就说所谓精准化营销,对于一个企业来讲,它希望能够找到客户,而且给客户提供的是它正好所需要的东西。这个来讲就是非常重要的一点,因此他不仅仅是需要了解你客户你本身,你在这个企业过去的购买历史,同时它希望能够了解到这个客户他在社交媒体上,在社会上各种各样的行为。这样的话把两个结合起来,他就可以给你推荐你最喜欢的产品。光有其中的一个方面是做不到的,需要很多方面。这样的话就等于是说你给这个客户做了一个360度的试图,所以从精准化营销来讲,需要大数据。
当然大数据还用各种各样的方面,比如说天气预报,比如说智能交通,都是需要一些大数据。这也就是说为什么今天大数据是这么热的一个话题。其实大数据的概念,在企业的时候就不能像一般的民众这样去关心大数据。民众你可以关心大数据带来的好处,对企业来讲它到底是怎么样可以帮助到你的企业。而且你的投入和产出比是怎么样,这个是很关键的问题,你需要多少时间,怎么样能够给你的企业带来价值。这点来讲在关系型数据库,这个问题并不是很重要。为什么呢?关系型数据库建立起来以后,你的企业应用自然就会运行,所以你的价值是显而易见的。但是在大数据就不是这样,举个例子,你要知道首先数据量比较大,100t大还是1000t大,其实现在你可以看到,像甲骨文的技术在一个机柜里面就可以做到3000tb,也就是3pb,只是在一个机柜里面就可以做,你说大吗,其实也不大。
所以重要的我觉得大数据的概念应该对企业来讲是叫全数据,什么叫全数据,它的量不是最根本的问题,而在于是说它是有结构化和非结构化组合的。你只是看结构化数据不可以,你只是看非结构化数据不可以,你要把这两个组合起来,这样对你才有价值。就像我们刚才讲的一个客户精准化营销这样的例子,各种客户精准化营销的这样一个例子你可以看到的问题是,其实你需要了解很多比如说银行,你需要了解这个客户在银行里过去所有的这些记录,这些都是结构化数据,但是同时你也需要了解这个客户在一些社会上的行为,因为你了解了这些行为以后,你才能决定,我是不是今天可以给他一个信用额度,在没有任何担保的情况,我可以提高一倍。这就取决于所有这些数据的分析,所以你可以看到全数据是非常非常重要的一点。
大数据是可望而不可及的吗,如何从大数据中获取价值?
甲骨文有一个很好的短片讲的是海洋里面捕鱼,其实在海洋生物里面有各种各样的生物。你可能有金枪鱼,你可以看到乌贼,还有海马,还有贝壳,还有海藻各种各样的一些海洋生物,当你捕鱼的时候,你捕出来以后是各种各样的东西在这,但是不同的海洋生物它的价值是不一样的。它的商业价值,可能金枪鱼的商业价值***,我可以卖到最多的钱。我希望一网打下去的鱼全部是金枪鱼,因此我就需要把它做分门别类。把我所选择的一些最有价值的东西把它提取出来,提取出来以后,同时你还要决定,为什么,你还要决定说你今天市场上哪一种海洋的生物,海洋的这些食品,鱼类,今天的整个市场价值***的,或者未来期货价值***。你还要根据这个市场的变化来决定我要选择哪一种海洋生物出来,这样的话能够让我得到***的价钱。
这里面就取决于我要分门别类,然后把最有价值的取出来,而且我还根据未来的比如说你货物有一个未来的价格变化,根据未来的市场变化来确定我到底选择哪一种搭配是***的选择。这个就需要我们把结构化数据和非结构化数据整合起来,***帮你领导做一个判断,帮行业的或者是企业的决策人做一个判断,这样可以让整个企业的价值***化。
所以你可以看到这个里面最难的一个问题是怎么样把它融合在一起做,今天很多人说我是不是可以用比如Hadoop的技术能够解决所有的问题,还是一样的问题,你用Hadoop的技术去解决非结构化的数据是可以解决的,这个没有问题。但是问题是你用Hadoop的东西去解决结构化的数据,刚才讲了不可以,但是其实另外一点,如果你一定要用这样的解决,那你就面临一个问题,你要取火,你取火你在家里开个煤气一点就可以。但是如果说你用Hadoop的方法来解决呢,你可能要钻木来取火。
所以我们觉得今天你应该用Hadoop去解决非结构化的东西,重要的是说解决完了以后把你所感兴趣的东西通过装载的方法,装载到结构化数据里面。然后在结构化数据里面去进行分析、判断,然后得到你想要的结果。这点来讲是非常非常重要的一点,其实他的难点,根本的难点,最重要的难点,就是它的装载,是把它融合。而并不是Hadoop本身的技术,因为今天从整个技术来讲,Hadoop这点来讲相对比较成熟的技术。
其实另外一个问题大家会讲我理解了今天大数据应该是一个结构化和非结构化的融合,难点是应该我要把它装载上来。我碰到另外一个问题,我自己的人是不是可以来我自己的非结构化的数据呢?这一点来讲有一个挑战的问题在于,今天传统的解决Hadoop的架构是用了一个技术叫MapReduce技术,这个技术今天来讲,相对来讲在互联网这个行业使用的人比较多,但是对企业级,你使用的相对比较少。这样问题在于你是不是应该再雇这么多的人专门去解决MapReduce,学习这种技术,然后来解决问题呢?这样来讲对你整个的投入又是很大的,所以今天在世界上你可以发现有一种新的技术,我们是通过用SQL的方法来从Hadoop的架构里面提取数据,这个很有意思的一点,我是用一种你最熟悉的方法,在一种最传统的非结构化数据所储存的方法里面,来提取你所感兴趣的东西,你不需要再去学习MapReduce,你完全没有这个必要,你只需要懂得SQL就可以。
大家说大数据最重要是全,的确是这样一回事。其实你会发现今天我们来讲,比如说你如果是要求在上百个100t这样的要求,上百个T这样的量级,我们要求今天都是实时的效果。也就说如果你没有达到一个p级,1000t的结构化数据,你都应该要求是实时,也就说你领导如果今天说我希望判断一下如果说我今天是一个渔业公司,如果我今天加大金枪鱼的产量,翻一倍,我会对未来整个市场,我的整个收入这个季度的收入有多大的变化。他可以马上不需要等待就可以得到一个结构,这个很重要的一点在于你需要实时,你需要非常实时,你所有这些都需要在结构化里面,当然你可以需要利用上所谓的内存技术。你会发现其实很多的技术是在融合的,今天大数据不是一个把其他技术完全否定掉的一个技术,而是一个大数据是和其他原来传统技术相辅相成能够达到效果。这个大概就是我们对大数据的理解。
甲骨文如何帮助企业从大数据的海洋中获取价值?
企业级用户大数据的整个思维方式和互联网的方式是不一样的。为什么呢?因为企业级你的整个数据的价值70%、80%,甚至90%都是基于结构化。我们曾经和一个银行的CIO探讨过,银行的CIO跟我们说他说为什么我要用Hadoop技术呢?我现在结构化数据我已经清洗过很多次了,我已经做的非常好了,我用传统技术都可以解决了。当然我们还要解释说,你还需要到社交媒体上,很多地方去找一些非结构化的数据。但是某一个程度来讲,对于企业级***的财富,80%、90%的财富都是在结构化里面。但是今天你需要从市场上,从你的社交媒体上互联网上等等这方面,非结构化的融入进来。甲骨文就是针对这样一种发展的趋势,所以甲骨文你可以看到,首先我们在非结构化方面我们用的是Hadoop的技术,我们用的是Cloudera的Hadoop,是现在商业化的Hadoop的架构。同时,如果你用MapReduce,我们完全支持,做完了以后,我们有一个Oracle Loader,Oracle Loader是可以把非结构化数据以后,当你提取出你所谓的精华,把它装载到结构化里面来,这个Loader我们的速度是传统速度的5倍以上。
装载很关键,如果你装载慢了,即使前面再快也没有用。你说我还是不懂MapReduce,就像我刚才讲的,甲骨文发明了一个Big Data SQL,你不懂MapReduce也没有关系,你只要按照Hadoop装好以后,你可以用Big Data SQL去读取这些数据,直接放在结构化里面。放在结构化里面你就有很多的想象空间,你可以去做数据分析,做数据挖掘,同时可以进行数据预测,数据仓库,所有的这些传统的工具都可以用上,你对你过去的投资是保护的,所以实际上这种我们认为是一种***的方案。