2012年7月22日下午,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室主办,CIO时代网承办,北达软协办的“首届中国大数据应用论坛”在北京大学北配殿成功举办。来自各企事业单位领导、行业权威专家、信息化负责人等出席了本次论坛,就如何挖掘大数据价值、大数据时代的应用等问题进行了分享和交流。
北京红山世纪科技有限公司技术总监刘溢淳先生在本次论坛上做了关于《虚拟化对于大数据应用的支撑》,以下为演讲实录:
北京红山世纪科技有限公司技术总监刘溢淳先生
尊敬的各位领导、各位嘉宾、各位朋友大家下午好!大家听了一下午是非常辛苦的,希望通过我的演讲给大家介绍一些新东西。开始听了各位专家的演讲后对大数据有了深刻的了解,在大数据环境下看一下我们的方案对各位建设是否有帮助,是否可以得到一些经验。
大数据的产生。之前专家都讲了很多,我就不再班门弄斧了。基本的概念是跟之前专家讲的一样,大数据有爆炸式增长,有了非常大的变化,需要很多新技术和新手段使用这些数据。我今天要跟大家分享的是对于这样的数据变化,虚拟化包括新的云计算架构能不能对现有使用有一些非常好的帮助。主要的几个特点跟前面专家说的非常一致,说明我们的理解没有太大偏差。重点我要说的是虚拟化和大数据之间的关系。大数据对于我们信息时代是非常宝贵的一种财富,它需要有效的挖掘和利用。例如之前嘉宾讲的,它对于我们是一个非常大的变革,现在基于大数据有Hadoop,移动的“大云”,包括百度这样的公司对它进行开发和使用。中国现在能使用到PB级别数据用户的量,我不知道有多大。今天也借机会跟大家分享一下。有没有各位的公司使用的数据量达到PB级别?有的话可以举手示意一下。
我们的分析是,目前中国80%到90%的用户数据量没有到这个级别。所以说大数据面对市场不一样,得到结果也不一样,也就是说大、小其实是相对的概念。随着公司变革、IT业务应用,它是不断增长。
其中有一家公司对于虚拟化和数据使用结合的非常好。2000年成立信息化部,做IT建设,当时使用的是小机,到2005年、2006年的时候对于数据使用出现了一个问题,发现小机对于不断变化的业务、增长业务变化非常快的情况出现了不适应。2006年,国内第一家采用虚拟化解决问题。转到X86,所以很好地解决了它的问题。从2000年初他们每年需要处理的数据量是几千人,到现在将近两亿人的规模,虚拟化在其中起到了非常大的帮助。
那么在这样的数据变化情况下,从很小的规模到有一定数据量规模变化,虚拟化能做什么事情呢?能给大家带来什么帮助呢?
云计算的核心是业务模式,本质是对数据处理技术和能力的表现。数据是资产,云为数据资产提供了保管、访问的场所和渠道。如何使用这些数据资产也是在大数据时代下大家非常关注的话题。
我的理解是,虚拟化和大数据之间的关系是动静的关系,虚拟化强调的是计算和资源分配,这是动态的概念。而数据相对来说是一种计算的对象,是相对固定的概念,是这样一个相对关系。实际结合起来强调计算和存储能力,这两个功能要有很好的结合。比如说大数据需要很大的处理能力。以前我们面对几台服务器,突然变化到需要处理到几十台上百台服务器,那么计算能力怎么划分、使用都会成为很大的问题。如果没有新的技术手段,解决起来是非常困难的,而且用户当中也碰到了这样的情况,待会儿会在实际案例当中跟大家分享。我认为这会相对实际一些。我们公司面对的对象不是百度、移动那种PB级数量的用户,而是比较小一些的,大概是100TB。
数据变化也会导致了一些架构变化。给公司带来的问题是,公司是不断上硬件还是采用新技术改变呢?这对于大家来说是一个比较大的挑战。
云计算和大数据之间的关系,我想用一个比喻,可能不太恰当啊。达沃斯论坛上有一份报告是《大数据,大影响》,宣称数据已经成为一种新的经济资产类别,就像货币或黄金一样,对于这个概念大家应该有个直观认识。
有了这样的一个很好的资产,我们如何把它用起来?相当于银行系统怎么把资金盘活一样,这其中需要很多的技术手段。比如说,处理技术(便携式计算、网格、Hadoop大数据处理等等都是一些非常好的技术)。涉及层面在于数据捕获、组织、分析、决策,这是对于数据来讲一些非常核心的技术。我们关注的是如何构建一个有效的硬件环境来完成这些工作。技术方面,像今天我也学到了很多有价值的技术,比如说“大云”平台对于业务层构建,还有百度公司提到的存储布局,这些对于我们都是非常好的技术,日后我们会不断跟进学习,补充这块的技术能力。
下面我介绍一下我们公司的产品定位。我们公司是基于云计算时代做的工作。云计算不外乎是一种基于服务、弹性可伸缩、基于网络交付能力等等。核心价值是面对大量服务器和存储怎样把硬件能力划分给应用完成工作。层次有三层:IaaS、SaaS、PaaS,我们主要是集中在IaaS这一层,做一个非常好的架构改变硬件使用方式。这是虚拟化IT基础架构,它跟以往传统结构不一样,采用了集群式存储,服务器组成了逻辑资源池,(可以对所有计算能力进行共享而且是动态分配、动态划分的),以前的方式只能是一对一,没有别的选择,绑定非常紧。有了虚拟化之后,这就不再是绑定的很紧,而是可以做灵活调整和动态分配的。这种架构大家看着不是特别明显,我把它的一些功能和可以做的事情跟大家进行一下说明。
我们的软件安装在服务器硬件上,对服务器进行整合。把计算机能力进行拆分,按区分配,多台之后可以组成虚拟化的架构,后台有共享存储。本机上不放数据,只是利用它的计算能力。这样IT架构可以对硬件部署进行重新的划分。它可以按需部署,不管是使用资源的高与低。部署完之后,操作系统可以做来回的动态迁移。(某个业务可以在服务器集群之间进行调整)。这是个非常直接的感受。还有整个业务的可能性,以前一个关键业务要做策略的话需要容灾备份,代价是比较高的。有了虚拟化以后,它可以在硬件宕机的情况下,可以把应用在其他资源设备上进行重新启动,而这个代价相对于之前的双机备份策略成本要低50%左右。由于数据存在后台嘛,所以可以从新调动进行利用。另外就是面对业务使用峰值不断变化的情况,可以动态调整某台机器上应用的数量,这样可以达到有些应用有冷时间、热时间,在需要资源更多的情况下,可以把小的一些负载迁移到其他机器上运行,这样可以在关键时刻保证其在机器范围能力之内做一个非常好的调整。还有一点是节能方案,当应用负载变的轻之后,访问人变的少的时候可以集中到少数几台服务器上达到节能减排操作。另外一个方面就是安全。对于先进IT状况来说,现在我们用的硬件设备好多是国外的,对于信息安全是一个非常大的挑战。我拜访一个客户的时候了解到一件事,部队曾经发生过一个事情,当他们测试一款国外产品--碎纸机发现了一个很严重的问题。在某款国外产品碎纸机上发现了一个芯片,当你碎掉文件之前可以进行扫描,保存在芯片里,他可以通过远程方式启动进行数据回收。这个问题是非常严重的。云计算时代对于我们来说是一个非常好的机会,我们可以在更底层做安全事情的考虑。
云计算现在没有普及开,有很多条件限制,其中安全是很重要的一个方面,安全是很大的挑战。安全方面我们计划做一个非常好的加密产品,通过在底层安全加密不断实现,数据在网络当中传输包括在相对不安全链当中的使用,进行高强度加密。这是我们对于这一块满足国内用户特殊要求所做的一个工作。
我们的目标是要做大范围的用户,我们也在不断了解虚拟化到底能给大家带来什么帮助之类的问题,我们都在不断探讨。很多用户在使用过程当中也给我们提一些建议。下面我做一些案例分享,与大家进行交流。
第一个案例是国外的。我们第一个客户不是在国内而是在国外。一个很偶然的机会,我们产品研发到2.0个时候是在2009年,跟国外一家公司有了接触,当时他们选择虚拟化的一款产品。找到我们之后就进行测试,测试完成之后,大概做了一个多月,他们觉得还不错,就进行整合。做了一年之后,做的非常不错,被美国的CA公司收购,那么CA公司又对我们从新进行测评改进,之后又续签了合同。还有其他的一些案例,比如说DNS、BT。当时国内刚接触云计算,从那开始我们也做了国内市场的工作。
第二个案例是山东省工商行政管理局的案例。当时是要兴建数据中心,数据对于当时来讲也是比较大的,需要40台服务器。通过跟我们接触以后,他决定采用服务器虚拟化的架构,原因在于我们为它提供的方案成本更低,效率更高。他们业务很多,也不能一次性上线,对于他们压力还是比较大的。所以我们出了一个具体解决方案,通过努力赢得了这个单子。当时我们也是跟国外的一些厂商通过竞争,最终胜出。
第三个案例,我们现在正在做的,中华人民共和国国家民族事务委员会。他们也想做这么一个系统,管理一些相关的信息。当时他们有一个问题是,全中国大概有几千万人的少数民族人员,但是信息统计非常困难。具体原因是由于少数民族生活习惯、使用IT操作习惯,没有这个意识,很难拿到全面信息。他们有两个难题,一个是怎么通过一个手段获得这些信息,再一个就是如何管理这些信息,也就是使用大数据的概念。当时我们提了几点建议,首先是拿到这些数据,我们提出了一个服务的概念。他现在想做的是,从这个少数民族人员出生到生老病死有一个全程的监管。比如说咱们可以提供上学、医疗等服务,以服务形式就可以轻松地拿到这些数据。那么管理时就要从云架构开始管理。最后提出了一个解决方案。目前这个方案已经通过测试,下一步马上就要进行实用。领导还是非常满意的,因为它能够实现少数民族整个数据管理到业务,包括门户网站,整个办公决策这样一些业务一体化的解决方案。
第四个案例,是某政府的云计算中心。这是企业跟政府共建的。希望建立一个完整的运营模式。模式非常好,模式是当地政府进行投资(投资形式不是固定资金,而是把以前需要做IT建设的经费固定拨给你云计算中心,中心自己筹建,你进行搭建)。这个数据服务模型也是经过深思熟虑的。比如说把一卡通、数字化牧场等公共服务方面放到里面。这不涉及很私密的问题。而且这个模式是面向大量的公共服务,比如食品药品监管之类的。这个数据量还是非常大的。他们算了一下,一个系统将近七八百万,而通过云计算可以把这个费用降低到很低。政府不用再做繁琐事情,比如招投标、项目评审。省了非常多的事情。而且双方也签订了服务协议。基于服务协议,会保证服务、保证数据安全。
从我们做的项目来看,数据使用量还是在TB级的比较多,到PB这块目前我们也在做探讨。这次来也学到了很多东西,希望跟大家多做深入沟通。大家有一些需求和新的方法可以跟我们交流。我们是希望做非常适用于中国用户非常习惯的方案,在信息化建设方面出自己的一份力,我的演讲就是这些,希望大家多多指正,谢谢大家!