【51CTO专稿】说到大数据,你先想到什么?
超过PB级的流量和存储,电子商务网站的各种购买记录、购物车记录和页面浏览记录,上亿用户级别的社交网络,抓取整个互联网的搜索引擎,金融领域以秒作为时间间隔的、快速变更的交易信息,3D地图,每天增长飞速的图片、音频和视频流……
业界对大数据普遍进行了几方面的特征定义,如数据量大、数据类型复杂、处理速度快。再说的直白点,大数据相比“传统”上的数据处理,不过是各方面维度的量级增加而已,由于技术的进步,把以前需要用大型机计算一个月的数据,变成用一个普通的机器或廉价的集群用几秒钟就能处理完毕的工作。
从这个角度来看,大数据的趋势其实针对各行各业都适用,而并非只是互联网、金融、搞气象或天文的科研机构这几个行业的专属趋势。所以,当微软的CIO也开始谈论大数据的时候,各位也不必感到惊讶。
上周,微软公司副总裁兼首席信息官Tony Scott(@kncukier)在北京微软大厦与几家媒体见面,一起聊了一些大数据方面的话题,51CTO记者也受邀参加。在谈到大数据的整体趋势时,Scott很高兴的将自己儿子的一个案例故事分享给大家听:
“我儿子最近在洛杉矶,自己创办了一家小企业。我非常惊讶的发现,他免费的获得了很多的洛杉矶本土的人文信息,他从事行业的业务信息以及流量信息。对大量的免费信息进行综合分析之后,能够准确地做一个业务决策:这个业务从哪儿开始做,如业务门店的选址等。如果是在十年之前,这样的数据要么是无法获得,要么就是要花高昂的成本购买。但是现在令人惊喜的一点是,所有的数据是免费的,而且为他提供很好的知情的业务决策。”
微软全球CIO Tony Scott
一个独立创业者涉及到的数据量虽然还称不上多“大”,但要知道这可仅仅是冰山一角。单单是“门店选址”这一块需求,不用说面向整个城市,想想看单就海淀区有多少这方面的需求:就算不考虑那些街边卖水果煎饼的路摊,要考虑到人流量、时间段、购买能力、购买欲望等等因素,这个数据量就已经相当可观了。
大数据在微软
根据Scott的介绍,目前微软内部的IT部门负责对微软在全球的9万名直接员工提供服务,加上微软服务供应商和外部咨询员等第三方人员,总用户数量大约在27万左右。IT部门本身不拥有数据中心:他们自己也是微软各种云计算业务的租户之一,如Azure,Office 365,MSN,Bing搜索,Hotmail等等。
针对这27万用户的服务,微软IT部门直接可管理的物理服务器有8000台,如果考虑虚拟化的情况则是至少24000个虚机,整个集群上运行着代号为Isotope的微软大数据平台(Hadoop到Windows Server的端口),为微软内部的营销团队、测试团队等用户提供支持。IT部门管理的终端联网设备在30万台左右,其中有大量的PC机,还有因最近BYOD(自带设备办公)趋势下所增长的个性化移动设备。
“关于我们的营销团队的一个例子,他们试图对各种不同类型客户的在线和离线行为进行建模。他们的数据集从数亿到数十万不等,由于当前模型预测的局限性,试图对在线和离线进行建模是非常困难的。根据我们的大数据演示,未来我们应该能够提供更强大的预测变量,更好的控制模型开发,更灵活的验证模型,缩短结果呈现的周期,并降低开发和维护成本。”
Scott也提到这个平台是如何支持上周刚刚发布RP版本的Windows 8产品开发的。众所周知,Windows自身有一套bug反馈系统,在用户系统崩溃了的时候,系统会将错误报告发送给微软的研发团队。比如在Windows 8的测试版本发布之后,就会收到来自上百万台PC反馈的信息。对这些bug信息进行分析建模,根据反馈的结果进行产品改良,才有最终Windows 8的完成。
大数据在各行各业
微软的IT部门跟许多非企业级技术类公司的IT部门的职责还不完全一样。由于微软本身就是一个庞大的企业,而微软的大部分业务是面向企业级用户所研发的,因此微软会先内部部署试用自己的产品(即业界常常提到的“吃狗粮”文化)。也正因为如此,虽然身为微软面向内部的CIO,但Scott也会经常跟微软的产品技术部门沟通,也会跟微软的客户们沟通,使微软自身能够以微软产品“第一用户”的身份进行经验分享。而Scott还有另一个优势,就是在加盟微软之前,他曾先后在万豪国际集团、通用汽车、迪斯尼等企业就职,对于这些传统行业的状态和需求都有一定的了解。
“对于制造行业来说,有的制造商属于大的制造商,他们生产的产品数以百万计,而且在全球进行分销,这些产品可能是PC机、手机,或者其他的智能设备,或者是汽车。对于这些制造商来说,他们必须收集用户使用这些产品的信息,帮助他们去开发、生产更高质量,而且对用户来说更适用的产品……再比如说我们有一个规模非常大的工厂,可能每天要生产几千台大型的设备,整个制造流水线当中有不同的流程。那么就需要收集每个流程的信息,从而更好地进行质量的控制,提高最终成品的质量。这样的技术应用已经在汽车制造行业,电子设备制造行业,还有一些医疗设备制造行业所广泛的使用。”
Scott也曾经在医药公司工作过。“你也知道,医药公司早期的研发或者销售时,通常都是搜集月度的信息,利用原来传统的数据库的工具,花几个月才能分析出来。现在有了大数据的工具,我们以小时为单位来采集数据,在不到几分之几秒的时间里获得以前一个星期甚至一个月才能得出的数据结果。而且这一切都是以实时方式实现的。”
共同的机遇与挑战
现在,有云计算集群这样价格相对低廉的、可出租的强大计算力,有Hadoop这样开源的软件框架来支持海量数据的快速分析,一些以前需要一个资金雄厚的组织花费大量人力物力完成的任务,现在很可能一个不到十人的小团队,花费很少的成本就能够完成。
“对于微软的客户来说,最关键的一点,一方面通过云的技术能够让用户获得无限计算的资源,来去分析大规模的数据,而且对客户来说,成本是低到可以接受的程度。通过对大数据的分析,能够让客户获得独一无二的洞察力,而且有的时候是非常专业性的学习能力。而且随着时间的推移,每一年这样的学习能力,这样的洞察力都在变得更好。”Scott十分看好大数据应用在各个专业领域的发展前景。“我们看到在不同的领域,比如说医药领域,科学技术领域,基础研究领域,制造,甚至是天气预报的领域,都出现一些非常有意思的大数据类型的应用。而且逐渐的也能够对这样一些应用带来的成果进行评估。正是因为通过私有云,或者公有云汇集计算的力量,我们才能够获得这样一个独一无二的机会,解决一些以前无法解决的非常有意义的问题。”
这也意味着整个市场会诞生很多新的机会。就企业而言,以前可能是一些在数据方面和统计学专业方面的商业分析员,使用着那些普通人看也看不懂的工具,每个月一次生成报表给业务人员和领导们看,由此辅助企业的战略制定。而大数据应用成熟之后,很多业务部门的人自己也可以用一些通用的工具来处理很多很容易就拿到的数据,进行自己的业务决策。这种快速、低门槛的环境,将推动大量细分市场的发展。
而另一方面,对于任何数据分析而言,都存在一个最初的问题:我们要收集哪些数据?要以怎样的频率收集这些数据?我们又要保留哪些数据?需要保留多长的时间?很多时候,并不是数据越多越好。甚至对错误的数据进行分析,还会引导出错误的商业决策。Scott认为,目前我们还缺乏一个很好的框架来解决这些问题。不过,Scott建议大家可以从两个方面来考虑:“第一个方面,你要了解,保留这些数据能带来什么样的商业价值?第二个方面,可以看看相关的IT治理政策条例是怎样制定的。”
对于大数据方面,您有什么想法?欢迎留言讨论!