大数据时代,英特尔同样“Inside”,而且,意味着更多X86架构产品的使用。
不止于此,英特尔在2013年初也推出了自己的Hadoop发行版。今年3月,英特尔又以7.4亿美元入股Hadoop生态系统中大名鼎鼎的Cloudera公司,占股18%。
“目前,英特尔和Cloudera各自的Hadoop发行版已经实现了结合。”8月27日,英特尔行业合作与解决方案部中国区总经理凌琦在接受21世纪经济报道记者专访时表示。
凌琦说,目前大数据还处在比较初级的阶段,还有很长的路要走,但他毫不怀疑未来大数据是一座金矿,“很兴奋,就像上世纪90年代刚接触PC时那种感觉”。
同时,凌琦强调,Hadoop开源社区有公认的反哺机制,一些厂商如果将其封闭起来,不仅违背了这个开源社区的机制,未来可能脱离主流面临落伍的风险,“而这将带来客户迁移风险”。
大数据需要静下来
《21世纪》:你怎么理解大数据,现在会不会炒得太热?
凌琦:数据一直存在,不过数据类型、规模的不同,以及从中挖掘出价值的可能性,带来了大数据的概念。今天的很多数据获取是先不结构化,因为结构化的过程中,很多价值丢失了。当然这并不意味着排斥结构化数据。
现阶段,大数据蕴含的价值和潜力还没有完全发挥出来,这类似于互联网,刚诞生时上面的应用也很少,但未来充满无限想象。从这一点来看,热一点无可厚非。
从概念的角度来看,现在大家都接受了大数据是个重要事情的判断,再炒还有多大意义呢?无非就是让大家对它重视起来,仅此而已。
当然,很多人在讲大数据,但没有讲到大数据具体能够做些什么东西,还没有做到对大数据的应用场景、应用模式的深度挖掘和使用。比如说,大数据对于金融行业的反欺诈、电信行业的详单分析、内部经营分析、精准营销等都是很典型的应用,但其实还没有被充分利用。
所以概念吹得再大也没多大意思,最重要的事情是,从应用的角度来说,有需要静下来做深入细致工作。
《21世纪》:应用存在瓶颈吗?或者说应该如何突破?
凌琦:这实际上是生态环境的问题,需要应用开发厂商和用户共同坐下来商讨,了解应用的需求,和它应用的模式、未来的应用方向以及希望能够解决的事情。
这个过程中并没有统一的做法。石油公司哪些应用能够适应你,保险公司是怎么样的,交通运输业是怎么样的,零售业是怎么样的,都不一样。
从企业内部来说,各个环节也要开放自己的思想,业务的人要看到应用的可能性,应用的人要了解业务。
作为从业人员,则要做更多的市场教育和培训的工作。否则你光炒一个概念,炒完了又怎么样呢。要做扎实的工作,要做培训、教育,以及一些好的应用推广。
需要指出的是,大数据的发展也需要一个过程,从我个人的感受来看,其实发展速度非常快。两年前参加行业交流的时候,大家还是在谈概念和憧憬,现在大家已经聚焦到怎么从中挖掘价值,谈具体的应用方式了。
“说IOE不行了,有失偏颇”
《21世纪》:大数据对企业的IT采购和预算支出会带来什么影响?我们知道,今年有个非常热的词叫“去IOE”。
凌琦:与分布式的大数据技术相比,集中式的存储、计算和关系型数据库,适应了当时有限数据的应用场景,他们之间的协作也是有效的,到今天来说也还是有效的。
说IOE不行了,有失偏颇,大家还是认可它在解决当时问题上的价值。但计算不能停留在此,它是适应过去以内部数据为主导的IT架构,现在很多数据获取已经超越了企业内部的范畴,原来的体系和架构并不足够。
这是技术架构层面。如果把这个热词与具体的企业联系起来,又是另外一回事。外部市场环境会推动企业内部的变化,虽然革自己的命很难,但大公司难免都 要经过这样的跨越。拿英特尔来说,我们早期是做Memory(内存),当后来日本厂商进来,在工艺、成本、效率上没有了优势,这块业务的利润受到影响很 大,后来转型到做微处理器。
我认为,对于大数据下的新架构来说,***,成本比以前相对更低;第二,未来的可能性更高。
《21世纪》:企业应该如何选择大数据平台的商业版本?
凌琦:这个跟企业的业务有关。对于一般的传统企业来说,他们希望有一个比较标准化的平台,能够利用平台的商业版本,快速地实施、***化他们在IT的投入产出,实现它的商业目标。
互联网公司会针对整个系统的优化做很多的工作。所以很少看到互联网公司用一个纯粹的商业版本,大多数是用开源的东西自己加以二次开发;而传统企业更多是希望用已经成熟的版本。
《21世纪》:为什么有这种区别?
凌琦:所有的商业客户其实都有一个特点:他们更多地是考虑成本和收益之比。成本高但收益更高,那就是可以做的事情;成本低收益更低,那就是不能干的事情。
互联网企业用分布式的存储和Hadoop类似的开源解决方案,加上二次开发之后,所能够解决的问题,能给它的业务模式带来基本的支撑。以前一般的互 联网公司可能就几百台、几千台服务器,但现在已经是几十万台上百万台服务器的规模了,如果用以前的架构的话,那成本可能会很高。而现在用类似Hadoop的分布式存储、数据平台,可以降低成本。
当然,从解决问题的层面来说,成本不能说是绝对低的,而是相对比较低。除了使用成本,还有二次开发和维护的成本。
对于传统企业来说,则是一个循序渐进的过程。比如互联网金融,互联网企业了解用户的行为比银行所了解的行为可能更多,银行搜集的更多是交易信息。如 果银行希望能够扩展客户并且接触到更多的客户,甚至能够和互联网企业结合起来,对于客户的行为信息搜集,进而针对用户进行营销。在这个时候,银行想到扩展 了,那它就需要有这一类的大数据分析的体系架构来支撑它。
《21世纪》:你把企业分为互联网企业和传统企业,那您觉得比如说电信、金融这些都是大公司,他们是适合自己开发还是选一个标准的版本?
凌琦:我不认为传统企业自己开发是一条合理的道路,毕竟这些企业有其自身的主营业务,比如石油企业是做石油开采、精炼,IT是支撑这些企业的工具, 因此,使用商业化版本的东西更加合适。对于互联网公司来说,整个IT架构几乎就是它的生命线和生产机器了,所以说还是会有点不一样。
对于传统企业来说,Hadoop是个标准的基础设施,从基础的架构上来说是开放的,能够使它在不同的技术之间,在不同的厂商之间,未来能够有灵活的选择余地。不是说我用了以后就被锁住了,我就只能用你这一家的。
当然,在基础架构上面的应用层,应该是每一家都有自己的优势,或者说可以通过自己的开发来达到,比如说,有些银行可能更加注重于个人的存贷业务,有 些银行可能更注重于企业的信贷业务,还有银行可能更注重国际贸易,这个可能就跟它上面的应用有关了。在这种情况下,需要有一个稳定的技术架构,在此基础上 的应用是可以自己操作的部分。
开源社区需要反哺机制
《21世纪》:从供应侧来看,大数据的解决方案足够理想吗?企业是不是还要在基础的层面进行定制化的开发?
凌琦:现在的状态是像Hadoop这类的基础平台,基本上是通过开源的社区,某一些厂商通过开源社区所做的东西进行优化之后,形成一个稳定的版本。
开源社区通常是谁都可以贡献的,贡献了之后形成一个主流,也有许多分支。***的做法是什么?是跟着主流走,因为可以保证你以后的系统,在不同的厂商 当中可以互相之间挑选、切换而不会被锁定,同时也为未来的技术做准备。比如说一些分支可能未来变成主流当中的一个部分,你就有机会了。
所以你要看哪些厂商在Hadoop的开源社区里面贡献更多,这意味着其整个技术能力和对未来主流的影响力会更大。随着时间的推移,有一些技术没有办 法成为主流,那么以后技术的升级可能会使非主流技术不兼容的状况发生,可能形成孤岛,从而使得企业的技术选择对于未来升级造成了很大的障碍和升级成本。
因此,主要是往主流的方向走。哪些是主流的厂商?你主要看这些厂商里面有多少对于开源社区的贡献,这种贡献是不是***会变成它开源社区主干的东西,如果是,这些厂商是会有更大的前途。
《21世纪》:现在谁的贡献***?
凌琦:开源社区谁都可以贡献,但是***开源社区仍然是有一条主线,这条主线是由谁来做的呢?是由主要贡献者。
比如Cloudera,这家公司大概只有700人,里面大概有100多个人是开源社区主要代码的贡献者,这个是一股很大的力量,意味着它所做的东西很大程度上会被开源社区所吸收,成为主流。
《21世纪》:会不会也有一些企业没有进行反哺,逐渐形成自己一套专有的版本?
凌琦:从开放社区的精神来说,大家从开放社区里面拿东西进行改进,那也有责任把改进的东西回馈给开放社区。这里面有一定的规则,有责任要反哺给这个社区。
对于大公司来说,本身这么做或许问题还不大,因为公司体量大,可以自己开发自己走。但是对于一些商业版本的开发者来说,这么做其实是件很危险的事 情,因为很有可能你的客户因此而脱离主流,比如带来无法迁移数据等风险。这个层面上就不仅仅是道义的问题。所以大多数传统开发厂商通常不会这么干。