大数据真是媒体的炒作吗?大数据真的离我们还很远吗?或许,发生在一个世纪之前,人类征服南极的故事能够回答这个问题。
1911年10月,两支探险队几乎在同一时间开启了南极探险之旅。一个是来自挪威的阿蒙森探险队,一个是来自英国的斯科特探险队。
这两支探险队有着诸多惊人的相似:两个探险队的队长都是海军出身,且均有10年以上极地探险的经历;两支探险队出发时间仅相差几天,面对同样恶劣的极地环境;没有任何现代的通信手段,双方因而都处于孤立无援的境地;两支探险队历尽艰辛先后抵达南极。
然而,两支探险队的结局却大不同:阿蒙森率领的挪威探险队按照原定的日期安全返回,而斯科特率领的英国探险队则在返程中不幸全队覆没。
这一典型的MBA案例,引起了美国管理学家兼畅销书作者吉姆·柯林斯的浓厚兴趣。
柯林斯注意到,阿蒙森为了征服南极做了很多准备,诸如:提前进行高强度身体训练、向纽因特人学习如何极地生存、准备了充足的补给品等等,但关键的制胜原因是阿蒙森放弃了公认的最佳出发地,而选择了谁都不看好但却距南极更近的出发地。最为重要的是,阿蒙森的决策是基于对此前60年来南极地区探险队日志的全面分析。
这种基于实证主义的创造性不仅让阿蒙森成为征服南极第一人,也促成了柯林斯的新著《选择卓越》。众所周知,柯林斯此前的三本畅销书《基业长青》、《从优秀到卓越》和《再造卓越》,均侧重于研究企业如何通过提高绩效最终实现卓越。但是,《选择卓越》则把研究的重点放在企业如何在错综复杂而急剧变化的外部环境中成就卓越。
简而言之,柯林斯的前三本畅销书关注的是企业内部管理绩效的提升,关注的是结构化数据应用,因为基于流程的应用所处理的数据对象只能是结构化数据。而柯林斯的新著《选择卓越》侧重于复杂剧变的企业外部环境,要实时捕捉外部环境的变化唯有依赖非结构化数据。
在柯林斯《选择卓越》中文版(2012年)出版之前,《中国计算机报》已于2011年7月公开发布了《走向以人为本的信息化》白皮书。白皮书强调:国际金融危机对产业经济的影响,福岛核泄漏与曼谷水灾等突发事件对产业的冲击,行业主流技术的生命周期对市场格局的颠覆,自然资源与环境对企业发展的约束,经济全球化对国内企业基于区域市场积累的管理经验和资源的颠覆,这些诸多因素的交织,构成了当今复杂剧变的企业外部环境。
面对复杂外部环境,企业唯有通过非结构化数据来实时捕获环境的变化,并与当今基于流程的企业结构化数据应用相结合,才能充分挖掘出为可企业决策提供强有力支撑的数据价值,进而做出精确的决策,才能在实时驾驭复杂性的过程中走向卓越。
其实,早在2009年,联合国就发出了“全球脉动”的倡议。该倡议认为,必须建立新的数字化指标,以实时了解外部情况变化,并及时地为各国决策者提供反馈。
联合国2012年发布了《大数据促发展:机遇与挑战》报告。报告指出,世界正经历着一场数据革命,而这一革命并不局限于工业化世界,发展中国家和地区同样会产生出大量的实时信息流。由于世界正变得越来越难以控制,而事物之间存在着相互联系,制定者更倾向于利用这些关系,采用更为简单廉价的方式来防止世界不稳定因素造成的损害或将这种损害保持在最低限度。
当今,经济全球化已将国家与国家、企业与企业紧密地联系在一起。国家也好,企业也罢,都面对着复杂剧变的环境。谁能驾驭复杂性,并且获益于这种复杂性——在竞争中胜出并走向卓越,某种意义上说,是在大数据上见分晓。
大数据市场在哪里
大数据是一笔庞大无比的资产,但如何“盘活”资产,让大数据证明自己?这才是关键所在。
可喜的是,上至国家治理,下至企业决策乃至个人生活服务,都可以获得大数据的鼎力支持。这些已经出现了许多鲜活的例子——印第安纳大学利用谷歌提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。华尔街德温特资本市场公司分析3.4亿微博账户留言,判断民众情绪,决定公司股票的买入或卖出。阿里巴巴根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业,对他们发放无需担保的贷款。欧洲多个城市通过分析实时采集的交通流量数据,指导驾车出行者选择最佳路径,改善城市交通状况。
在中国,大数据应用是何种景象?“为了梳理大数据应用现状、把握未来发展脉络、为大数据的健康发展创造良好的氛围,赛迪顾问组织了中国大数据重点行业应用调研项目,涉及的调研对象包括:工业和信息化部相关部门、地方经济和信息化委员会、电信运营商、金融企业、IT厂商等。”赛迪顾问云计算产业研究中心韩耀强介绍道。
经过为期三个月的调研,赛迪顾问发现了关于中国大数据市场的一些关键数字——2012年中国大数据IT应用市场规模约为10.57亿元,其中,互联网、电信、金融等行业大数据IT应用投资占据较大的市场份额,分别达到16.8%、12.3%和11.2%。未来三年大数据市场规模将呈现爆发式增长——近90%的年复合增长率,到2015年,大数据IT应用市场规模将达到71.5亿元。
“通过调研和座谈,我们发现智慧城市、电信、金融等行业对大数据的应用需求迫切,涌现出了一些有代表性的案例。”韩耀强指出,“这三个行业成为典型是有深层次原因的:我国智慧城市建设已经进入提速发展时期,年初,住建部公布了90 个首批国家智慧城市试点名单,并配套4400 亿授信额度;新式移动互联网终端热度居高不下,移动互联网业务的需求呈爆炸式增长,电信业将围绕着面向移动互联网的应用和内容平台转移,以大数据为依托,走向以融合为中心的新时代;金融业务的载体与社交媒体、电子商务的融合越来越充分,金融业仅对原有15%的结构化数据进行分析已经不能满足发展的需求,急需借助大数据战略打破数据边界,构建更为全面的企业运营全景视图。”
对行业用户,赛迪顾问从专业咨询的角度给出了两点建议:“一是通过云平台实现数据大集中,形成数据资产;二是深度挖掘大数据的价值,推动企业智能决策。”这就要求企业打破“分散在各个业务系统中的数据无法形成集中的资源池、不能互联互通”的尴尬局面,把集团的信息化架构向云平台迁移,实现数据的大集中与统一管理。这也要求企业重视对大数据的价值的深入分析与挖掘,推动企业决策机制从“业务驱动”向“数据驱动”转变,提高企业竞争力。
而作为数据处理、行业信息化解决方案中核心组件和平台的提供商的英特尔,则从自身对行业的理解出发,给出了颇具实践意义的建议和看法。
英特尔数据中心软件部中国区CTO苗凯翔表示,大数据是构建智慧城市必不可少的重要元素。大数据在智慧城市中的应用需要分三个阶段来具体实施。首先要进行数据的整合。其次是数据挖掘,这也是大数据管理的重点所在。这需要软、硬件的高度配合与协作,也是当今IT企业争相角逐的“赛场”。最后是把大数据变成可操作的行动,从而指导决策和运维。英特尔数据中心软件部大数据产品技术顾问黎超认为,金融业和电信业本质上都属于服务行业,在服务行业里最关键的是大数据的价值杠杆,即怎么样去做好客户的精细化管理和精细化刻画。
英特尔的合作伙伴同样有话要说。用友医疗卫生信息系统有限公司副总裁、用友智慧健康研究院首席专家徐春华表示,数据量一旦达到PB级,运行时间就成为关键参数,并行计算框架和基于列的数据库架构是正确的解决方法。博康智能网络科技股份有限公司董事兼CTO田广认为,结构化数据到非结构化数据的转变、大数据到可用数据应用的转变、保证运算前提下后台的运行和存储是行业用户最直观的需求。
大数据机遇青睐谁
“一方面,大数据的每个环节对专业性的要求都很高,用户的IT部门无法在所有环节都达到较高的专业性;另一方面,用户更关心大数据分析的结果而不是处理过程,这使得用户对大数据整体解决方案的需求巨大。”赛迪顾问云计算产业研究中心陈靓表示,IT厂商应该好好把握大数据浪潮,以获得再次增长的动力。
英特尔、EMC、甲骨文、SAP、IBM、微软……巨头们纷纷在行动,并分别在大数据采集、存储、读写、运算、分析等多个环节形成了各自的优势,大数据IT市场一片繁荣景象。
赛迪顾问总结了IT巨头在大数据上的特长:英特尔一方面准备了全面的,端到端的,跨越了凌动、单路双路及多路至强处理器产品的核心硬件支持,所谓端到端,就是从大数据的采集,到传输,再到存储、处理和查询,以及分析阶段,都有相对应的创新予以支撑。而由英特尔中国团队领衔开发的Apache Hadoop软件的英特尔分发版不但可提供开源版本所不具备的强大技术支持,还针对英特尔架构硬件平台进行了充分优化;Oracle融合中间件对大数据整个生命周期提供全面支持,包括快速数据分析、整合不同大数据源,已经从海量时间流中处理高质量数据的能力;SAP HANA和SAP Sybase IQ都将进一步支持大数据数据源;IBM的优势在于其信息管理平台、信息整合与治理、分析能力,以及平衡配置的IT基础架构;微软希望将Hadoop集成到Windows系统中,在Windows Azure、Windows Server、SQL Server 2012上全面支持Hadoop。
不难发现,x86架构为大数据提供了最底层的支持。“Hadoop的分布式架构使得大数据处理基于x86架构成为可能, Hadoop可以利用高性价比的x86服务器组成高性能集群,当数据量增加到无法承载的时候,只需增加相应节点即可满足存储和计算需求,价格低廉的存储和计算是大数据的推动力。同时,Hadoop基于x86架构运行,也是 Hadoop快速发展并被广泛接受的重要原因。”韩耀强指出,x86的横向可扩展性是其天然优势,也是实现大数据存储和处理基础架构的横向扩展的前提。此外, x86节点提供了较高的计算密度、较低的成本和功耗,以及简单灵活的管理。
“大数据领域的软硬件集成显得很重要——通过软硬集成的整体方案,可以使软硬件性能得到更好的优化,保证存储、服务器以及数据分析软件之间的兼容性、一致性以及它们的可扩展性,从而保障用户的数据安全与数据分析效率。”实际上,英特尔已经将这一理念很好地在其大数据策略中贯彻执行了——英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔强调,以基于至强处理器的高效IT基础设施为基石,英特尔在数据组织与管理层,针对大数据的分发和管理需求,提供针对英特尔平台优化的Apache Hadoop软件的英特尔分发版和相配套的技术服务;在分析与发现层,提供针对客户端与服务器端算法开发的支持;在决策支持与IT服务层,联合合作伙伴,提供更为优化的可视化应用体验。
可能的竞争格局
x86架构可以在大数据领域继续独领风骚吗?
“对计算能力要求比较高的用户,x86是首选,而大数据要求CPU的指令集更适合非结构化、半结构化数据的处理,内存读写速度更快,内存或主板的逻辑结构更适合进行内存计算等高速计算。”软件与信息服务业研究所研究员刘琼表示,“x86架构在这些方面的优势明显。”
软件支持则是x86的另外一张王牌——在x86平台上涌现了很多支持大数据的软件。仅以英特尔为例,它从硬件和软件层面分别对Hadoop进行优化,为企业大数据处理提高了稳定性和易用性。英特尔基于Hadoop开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop的处理能力达到“接近于实时”的处理效果。
那么大数据领域的开源软件与商业软件会以何种形式相处?“很多企业会感到郁闷,觉得被软件厂商绑架了,因为要不停地进行巨额的软件投资以跟上新技术的发展步伐。从互联网行业的成功范例来看,可推广的模式是开源与商业化相结合。”黎超表示,开放使得用户能够建立完整的知识体系,商业化则能引入竞争,在开放与商业化结合的平台上,新技术的发展会让用户和解决方案提供商实现双赢。
在开源软件的基础上添加自家的“独门绝技”的同时(这是英特尔、IBM、微软等厂商纷纷采用的策略),也为开源社区积极贡献自己的力量——作为开源界的知名支持者,英特尔为 Apache Hadoop 框架及相关项目做出了重要贡献,如使得开源社区和用户能够充分利用现有及未来数据中心的基础硬件、存储和网络技术。
#p#
大数据走向何方
“从政策面、市场、技术等层面,我们都能找到大数据前行的动力。”韩耀强介绍道。的确,虽然目前国家还没有专门针对大数据出台相关政策,但对于海量数据处理技术等具体技术给予了明确的支持。市场一致认为大数据的深度应用不仅有助于企业经营活动,还有利于推动国民经济、社会管理发展,这激发了行业用户对数据分析与挖掘技术的更为强烈需求。而就技术而言,新一代信息技术正以前所未有的速度转化为现实生产力,深刻改变世界科技和经济发展形态,大数据则是新一代信息技术的先锋和代表,已经成长为一种新的业态。
基于对大数据产业发展的历史及未来趋势的理解和把握,赛迪顾问绘制了大数据产业发展路线图,从运行支撑层、组织与管理层、分析与发现层、应用服务层进行了解读:运行支撑层的发展主要集中在高性能服务器集群以及存储技术的发展上,预计未来高性能服务器集群将更多地采用x86架构,同时大数据一体机将成为大数据产品中重要的产品形态;组织管理层的技术创新主要集中在Hadoop的持续完善,基础架构和技术的更新必将给大数据组织带来管理效率上的提升;在分析与发现层,各种BI软件的推出是该层的主要特点之一,此外AI、机器学习等领域也得益于大数据处理技术的快速发展,大数据对于决策支撑的意义将日益凸显;在应用服务层,大数据服务将从目前主要服务于企业自身需求的层面扩展到更广阔的领域,一些针对个人的大数据服务也将推出,此类服务的泛在化成为主要特点。 整体而言,大数据产业发展将呈现“平台化”、“精准化”、“实时化”、“预见化”的特点。
“话说回来,大数据产业的发展离不开政策的支持、用户意识的觉醒和解决方案提供商的努力。”韩耀强指出,制定积极的政策法规并创建适度宽松的大数据发展环境,以及启动大数据相关立法,从标准和法律层面保障信息安全会成为“献计献策”者向政府提出的建议。而IT厂商则应该深刻洞察用户需求,提供高可用性的整体解决方案,以细分领域的创新为突破口,提供有行业特色的专家级方案。
case1 浙江省台州市智能交通管理解决方案
案例要点:台州市交通部门在不到1秒内即可得到从24亿条过车数据中根据车牌号查询出的行车轨迹。
浙江省台州市经济发展迅猛,地方交通持续拥堵,机动车辆不断增加。为此,地方交通部门采用了数据驱动的方法,在市内重要检查点安装了上千台数字监控设备,7×24小时不间断捕获图像和视频数据,每月数据量达到TB量级。
台州市交通部门利用22台基于英特尔至强 E5系列的服务器、198TB存储空间构建了台州市交通数据中心,对交通信息实现集中存储与管理。利用Hadoop 分布式文件系统(HDFS)和Apache HBase实现基础过车结构化数据的永久存储,可以实时对数据检索,并随时无缝扩容。依托英特尔开放数据分析平台的优势,实现海量数据的挖掘和分析。
英特尔至强E5系列增强了系统I/O处理能力,单服务器允许平均每秒250次500KB尺寸图片同步传输或2000次异步并发存储。Apache Hadoop软件的英特尔分发版提供了高度容错性和高吞吐量的海量数据存储解决方案,可为海量信息提供可靠存储,并无缝容量扩充。Apache Hadoop软件的英特尔分发版满足了车辆监控系统复杂的数据查询需求,不到1秒的时间即可得到从24亿条过车数据中根据车牌号查询出的行车轨迹。
台州市机动车违法图像信息在系统的保存周期从3个月延长到24个月,交通部门可根据车辆的颜色、车型、号牌等信息实时查询其历史行为、行车路线和车辆营运公司、驾驶人等关联信息。交警可以从24亿条过车数据中轻松检索被监测机动车的行车轨迹。管理部门可以便捷利用关联车辆的分析数据。根据24亿条实际过车数据进行两卡点、多卡点的伴随车辆和碰撞车辆的复杂分析,耗时仅为10秒左右。
case2 中国移动广东分公司详单实时查询
案例要点:用户可在1秒内查到6个月的详单数据,并支持2000个查询并发。
中国移动现有计费系统维护成本高,无法应对个性化客户需求的增长。RDBMS 解决方案无法满足存储规模和实时查询要求,进而无法为用户提供满意的服务。
中国移动广东分公司使用专为 Hadoop 软件优化的至强5600系列通用计算平台取代 RISC 平台,并采用Apache Hadoop软件的英特尔分发版来消除数据访问瓶颈和发现用户使用习惯,开展更有针对性的营销和促销活动。并利用 Hadoop分 布式数据库(Hadoop HBase)扩展存储。“大数据表”增强了 Hadoop HBase,可以跨节点自动分割数据表,降低存储扩展成本。
基于Apache Hadoop软件的英特尔分发版的基本优化算法,使应用程序变得更高效,计算存储数据可以更均衡地分布。借助至强系列硬件技术,英特尔至强处理器安装程序控制的自动调谐配置有助于无缝地优化性能。经过充分测试的Apache Hadoop软件的英特尔分发版可确保长期稳定运行,它与最新的开放源码相集成,确保了各个组成部分之间的一致性,并且得到英特尔充分支持,从而简化了运营管理。
新解决方案的性能显著提高,使整体硬件投资减少,提高能源效率,成本明显低于基于RISC的旧系统。由于集群分配服务的总体网络带宽高,这个解决方案带来了高速的 HBase 数据库访问。新账单查询系统具有较低的总体拥有成本、高扩容能力和高处理性能,可让用户在1秒内查到6个月的详单,并支持2000个查询并发,从而为中国移动广东公司在高业务量的背景下不断改进客户服务奠定了坚实的基础。
case3 辽宁省锦州市区域医疗平台
案例要点:辽宁省锦州市区域医疗平台满足包括居民健康档案、电子病历、公共卫生及综合管理等1亿条相关记录的高并发检索和实时数据分析要求。
锦州是辽宁西部城市群区域性中心城市和重要港口城市,户籍人口规模约310 万。2012 年3 月,锦州市政府正式启动“健康城市”战略,建立以城市为单位建设的区域卫生数据中心,以居民健康卡为纽带,覆盖卫生信息化的主要业务领域。存储的数据将包括居民健康档案、电子病历、公共卫生及综合管理等相关数据,20 年左右的数据量预计会达到PB 级,传统关系型数据在大数据存储实现中存在局限性。另外,海量数据存储、备份、扩容、快速检索、高效数据交换等面临新的挑战。
锦州市政府利用基于英特尔至强E5 的服务器平台,以及Apache Hadoop软件的英特尔分发版,搭建区域医疗大数据计算架构,以满足海量数据(1亿以上的记录数)的高并发检索和实时数据分析的性能要求。
基于该区域医疗平台,医生通过对患者就诊信息的快速检索,可以做出更准确的诊断,有效避免重复用药、错误用药等。该区域医疗平台支持高并发的大数据检索,可与居民健康教育相结合,帮助居民建立起个人健康管理的理念,从治疗转向预防。同时,它支持灵活的数据分析建模和数据分析挖掘,为区域卫生管理者提供了接近实时的数据分析结果,可以广泛应用在疾病控制、医疗行为监管、医疗质量管理等领域。
与传统数据库和小型机的方案相比,英特尔架构大数据解决方案具有更好的开放性和更好的经济性,其集成的图形化界面提供了便捷的节点管理和横向扩展功能,大幅降低了管理成本。
case4 上海理想跨区域实时视频监控系统
案例要点:“全球眼”并行海量视频分析和应用平台性能提升5倍,查询和分析能力提高了10倍以上。
视频监控系统已成为城市环境中的一种标准做法,旨在帮助协调应急响应,引导交通,并加强公民的人身安全保护效果。中国电信上海理想信息产业(集团)有限公司基于中国电信“全球眼”数字视频监控系统,使用Apache Hadoop软件的英特尔分发版,实现了对视频数据的实时分析和存储,构建并行海量视频分析和应用平台。
新平台的基本设计要求是必须提供实时图像服务。在紧急时刻,企业利用这些视频数据来决定所采取的应对措施。这就要求背景视频并行化分析、存储和处理子系统都具备极高的处理速度。该平台可解决以下两个问题: 视频图像的实时分析、高效的视频数据存储系统(在“全球眼”系统中,每个前端摄像头的码流速率都在6Mbps以上)。
在采用了Apache Hadoop软件的英特尔分发版的分区存储架构之后,与上海理想以往部署的传统数据库相比,各个应用的分析耗时更短。Hadoop分布式数据库集群中的服务器既是计算节点又是存储节点,并使用HDFS分布式文件系统让集群中的所有节点形成一个统一的文件系统。HDFS分布式文件系统的访问带宽是整个网络的聚合带宽,可以达到几百Gbps以上,完全消除了视频存储的访问带宽限制。Apache Hadoop软件的英特尔分发版在分配搜索任务时,更可以实现存储位置感知,将任务分配到视频所存储的节点之上,充分利用本地硬盘带宽,使访问吞吐量进一步提高。
上海理想基准测试表明,使用Apache Hadoop软件的英特尔分发版后性能提升了5倍,而且可实现精细的作业调度和任务调度。
记者手记
承传PC的理念
如果从创新经济学和产品生命周期的角度来梳理PC产业的发展历史,可以发现很多颇具启发性的闪光点。
从创新经济学的观点来看,人类进入工业社会后,经历了5次长周期的经济增长,这5次增长长波分别是由以水力、蒸汽机、电力、内燃机和IT为代表的主导技术所驱动的。新的主导技术的颠覆性体现在其扩散过程中,即在其普及过程中形成新的经济形态,进而推动经济的发展。
综观IT历史,小型机替代主机,PC又替代小型机,原因在于小型机和PC能够为更多的人所使用。目前,“移动互联网+云计算”成为新一代的主流技术。智能移动终端能够让云计算提供的强大的计算技术,以更快的速度在更大的范围扩散,因此它作为PC的延伸和扩展,成为新的个人计算市场的主流不可避免。
在信息时代,IT的主导地位不会变化,而计算技术所依托的不同的产品形态如:大型机、小型机或PC是会发生变化的,这些变化受到产品生命周期的制约。
回顾PC的高速发展,不难看出基于标准的开放性和规模经济效益是PC成功的两个根本原因。开放标准大大降低了市场进入门槛并加剧了市场的竞争,从而促进了PC相关技术的快速发展;而大规模制造通过降低成本,将计算技术扩散到更大的范围。
如今,云计算成为PC理念忠实的传承者。在规模经济效益也就是降低用户使用成本上,云计算按需付费的服务模式使得用户免除了一次性购买产品带来的资金压力,而云计算的核心技术MapReduce的设计理念就是,系统中节点故障是常态,关键是在存在计算节点故障的系统中确保正确的计算结果,这就使得谷歌等互联网公司基于x86 CPU自行设计服务器,从而避免了采用品牌服务器的额外的庞大开销。
在开放性上,作为MapReduce的开源实现,Hadoop以其开源的优势,为众多互联网企业所采用。随着大数据的到来,2012年甲骨文、IBM和微软三大数据库厂商不约而同地“屈尊”宣布采用Hadoop架构作为大数据系统平台,从而印证了大数据开放性的威力。
Hadoop与x86的结合已经成为云计算平台的事实标准,考虑到大数据的应用也是基于Hadoop的,Hadoop+x86无疑也将成为大数据平台的事实标准。
作为十多年来PC技术和市场的主导者,英特尔肯定不甘在云计算特别是大数据市场上扮演候选者之一的角色。在Hadoop已经成为市场上不二之选且作为开源软件而不受任何厂商左右的情况下,英持尔的创新就是要实现基于hadoop+x86,又高于hadoop+x86的策略。
2012年,英特尔发布了Apache Hadoop软件的英特尔分发版,将软件与CPU、固态硬盘、网络等硬件集成优化,从而使得基于英特尔的至强CPU+Hadoop发行版的系统,比市面上其他的Hadoop+x86系统在性能上表现得更好。
如今,英特尔已经在处理器的指令集层面增添了对于自家Hadoop、对于大数据应用的支持。可以预期,未来英特尔会在处理器中针对大数据算法进行更多的优化,以实现从候选者到主导者的转变。