经过了2012年的铺垫、酝酿、诞生直到质疑、喧嚣、炒作,大数据在2013,将正式走下神坛,深入各个行业各个领域,产生巨大变革之力,这正是“大数据元年”的核心要义。
从全球范围看,这种变革正在发生。互联网行业首当其冲,接着是商业智能与咨询服务领域、零售行业,还包括医疗、卫生、交通、物流甚至生物科技、天文……大数据催生的数据服务意识和能力,正在影响这个社会的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域,并催生了了各行各业的变革力量。
处于发展中国家前列的中国,目前正面临着一个重大的历史抉择关口。应该说,在过去三十余年的时间里,中国在快速走向工业化,信息化,网络化方面交出了一份不错的成绩单。适逢世界走向数据化,迈入大数据时代的时刻,无论对个人,企业,还是对社会和国家,都有认真理解,严肃决策的必要性和紧迫性。
工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关。
而国内的互联网公司也在这波数据服务浪潮中迅速找准了自己的位置,不断地通过输入法,浏览器、杀毒平台、以及各种木马、COOKIE之类产品和服务,包括近年来崛起的云计算,都是试图获取和整合更多的用户行为数据,并期待通过这些手段增强自己掌握数据结构性,加大数据关系性,把碎片化的数据用种种手段整合起来并加以利用,这是产业发展的一个显著走向——尽管这些尝试还处于基础阶段。
此外由于数据服务本身对数据收集、存储、分析和加工等方面的需求,一些硬件层面的变革也在产生,国际IT巨头如IBM、EMC、惠普等都开始在这些领域推出了针对性的产品,并嵌入自身服务矩阵之中。国内IT企业同样意识到了这波浪潮,开始在原有的业务和产品基础上加大数据领域的研发和投入,并拿出了初步的产品和方案,期冀跟上潮流。
一个乐观的预期是,国内大数据市场有市场需求广阔、后续增长潜力大、投资前景好等优点,后续发展值得看好。但庞大的人群和应用市场,复杂性高、充满变化的行业条件,以及在政策、理念和历史因素等方面的桎梏,使得中国成为世界上最复杂的大数据国家。
数据政府的机遇与挑战
随着互联网技术的不断发展,数据将像能源、材料一样,成为战略性资源。如何利用数据资源发掘知识、提升效益、促进创新,使其为国家治理、企业决策乃至个人生活服务,是大数据技术的追求目标。随着技术不断成熟,大数据技术将成为国家治理的重要工具。
宽带资本董事长田溯宁表示:“现代历史上的历次技术革命,中国均是学习者。而在这次云计算与大数据的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能。”而具体来看,有两点非常有利于中国信息产业跨越式发展。
一方面,大数据技术以开源为主,迄今为止,尚未形成绝对技术垄断。即便是IBM、Oracle等行业巨擘,也同样是集成了开源技术,和本公司原有产品更好的结合而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕。在过去的几十年中,中国信息产业,一直落后于国外的巨头,长期处在产业链的末端,赚取低端的利润。尽管国家拿出大笔资金扶持上游环节的拓荒者,比如CPU、操作系统、办公软件,但是花国家钱的,鲜有成功的先例。但是在新兴的大数据处理领域,中外公司几乎站在同一起跑线。有业内人士表示,单纯考虑狭义的大数据处理技术(如Hadoop、MapReduce、模式识别、机器学习等),中外差距仅有5年左右。如果考虑数字资产规模以及利用的技术,中外差距更多体现为意识上的差距。
另一方面,中国人口和经济规模,决定中国的数据资产规模,冠于全球。客观上为大数据技术的发展,提供了演练场。第二点亟待政府、学界、产业界、资本市场四方通力合作,确保国家数据安全的前提下,最大程度的开放数据资产,促进数据关联应用,释放大数据的大价值。
工业和信息化部通信发展司副司长陈家春对此表示:“我国大数据产业同样也面临着人才匮乏、数据资源不够丰富、数据开放程度较低、相关的法律法规不完善等问题。”事实上,我国目前对大数据的价值和应用,政府、学界、产业界和资本市场尚待达成一致的认知。各部门、各地方普遍存在“数据割据”和“数据孤岛”的现象。
所以数据开放的意识和能力是最重要的一点。在过去几十年中远远落后于时代发展的网络公共数据服务近年来异军突起,从零散、滞后、粗略和被动的状态开始迅速走向集成,动态,精细和主动的新阶段。而在数据公开方面,引导潮流不是个人或企业,因为他们受困于个人或企业的利益,代表公共利益并由公众税收维持的政府反而正在成为数据公开的潮流引领者和规则制定者。
归根结底,除了技术上的欠缺,对大数据的深刻理解和认识,以及数据开放理念,是阻碍我国大数据技术在各行业落地的关键因素。联系到我国现代化所面临的种种问题以及教育、交通、医疗保健等各方面挑战,通过大数据这种创新方式来解决问题,创建新的产业群,实现“中国制造到中国创造”的改变,意义就更大。#p#
互联网公司数据版图
在21世纪的第一个十年里,我国互联网行业取得了令人瞩目的成绩,形成了覆盖数亿网民、辐射各行各业等全产业链,在用户行为积累和数据处理方面积攒了一些经验,然而就整个产业而言,互联网行业仍处于大数据时代的萌芽初期。在商业模式和经营水平对数据的依赖程度上,除了搜索和电商,整体上低于电信业、金融业、证券业、保险业、航空业、旅店业等传统产业的水平。这是因为数据并不等于大数据,传统的数据分析和数据统计手段也并不适用于大数据领域。
但另一方面,对比国际大数据企业的发展路径和步伐,互联网公司由于业务和行业特征,在数据分析技术和所以在数据的分析上作得相对领先一些,更有可能直接形成突破。国金证券在其发布的大数据系列报告中提出了大数据时代应用软件互联网化,行业应用垂直整合和数据成为核心资产等3个主要的趋势,其中最为值得注意的就是在传统操作系统,数据库平台软件同质化趋势日趋明显的背景下,未来越靠近最终用户的企业将在产业链中拥有更大的发言权——这方面互联网公司最占优势。
具体来看,国内这方面最有发言权的莫过百度、新浪、阿里、腾讯等于互联网几大巨头。
百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,日均响应50亿次搜索请求,搜索市场占比达80%,同时还构建了百度联盟,60万联盟合作伙伴每天有50亿次的日均行为产生,这些构成了巨大数据的基础。但截至目前为止,百度没有对数据分析服务商的收购,其主要数据产品都集中在搜索一条线上。推百度指数,并在百度指数的基础上建立百度风云榜;百度数据中心,以数据分析研究机构的方式,通过广大网民的搜索行为数据为各行业提供网络搜索咨询报告。除此之外,就是为广告站长和开发组提供的百度(移动)统计以及相关的开发者服务工具。
而且在真正的大数据领域百度也有一定的危机。因为它的海量搜索数据虽然规模庞大,但结构简单。在数据挖掘深度,搜索结果个人化,搜索结果与广告之间的相关度上进展有限,只有改良,没有突破。百度的贴吧、音乐、知道、文库等产品相关度不错,但在复杂数据上仍然需要加大投入,以期在大数据时代实现二次爆发。
另一个不容忽视的领域则是电商服务业,甚至有种说法:“电商行业的现金收入源自数据”——亚马逊也是凭借这一领域的深耕和布局来跟紧甚至引领大数据时代的——最具代表性的当然是阿里集团。
最直接的例子来自阿里平台,尤其是曾经创下“巨大声誉”的阿里询盘指数。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值。统计历史上所有买家、卖家的询价和成交的数据,可以形成询盘指数和成交指数。2008年初,马云观察到询盘指数异乎寻常的下降,推测未来成交量的萎缩,并提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。此外淘宝数据魔方则是淘宝平台上的大数据应用方案。通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此作出经营决策。
腾讯则是中国互联网另一个当之无愧的巨头。财报数字显示,腾讯拥有超过7.836亿QQ活跃账户,4.69亿微博用户和超过1亿的视频用户、5.976亿QQ空间用户,微信、手机管家等带来的移动用户也超过了3亿。除却海量用户,腾讯“N个产品×N个平台×N个终端×N个用户关系”的庞大服务矩阵,带来数据的非结构化、碎片化、海量化。正因为如此,以产品而著称的腾讯在数据领域的布局主要集中在其产品上,而腾讯在用户行为分析领域的能力和底蕴不容置疑。但说到具体的数据挖掘和数据共享服务,目前能够对外开放或者深度加工打造出的单独服务还不多。目前来看,对外的只有针对站长和移动应用开发者提供的腾讯分析和腾讯罗盘两款应用分析工具。
此外,2011年凡客成立了数据中心,希望实现互联网的系统化和数字化的管理,包括库存、进货周期、周转、订单等方面的数据研究,以及研究新产品的上架与新用户增长的关系,每上线一个新品与它能够带来的用户二次购买的关系等;新浪微博则成立数据部,在海量微博用户和信息的基础上开展了一系列数据挖掘和分析的研究和实验,同时开放数据给第三方创业公司,初步形成了依托其上的一个小型社交媒体数据分析挖掘生态;携程网则将自己多年来在OTA服务领域积累的数据和用户习惯深度挖掘出来,并在此基础上形成了一套新型服务模式和服务体系;加上视频行业的优酷、下载工具领域的迅雷、安全信息领域的360甚至婚恋网站中的百合网、招聘网站中的前程无忧……在大数据时代爆发的背景下,无数互联网企业开始重新审视自己的行业定位,将数据资源和数据价值提升到自己的核心战略中,并衍生出一系列新型服务和产品,而这种趋势还在继续迅速爆发中。
综合来看,大数据的出现既为网络业带来了机遇大于挑战。数据量的增加为网络公司提供了精确把握用户群体和个体网络行为模式的基础,如果能够充分利用,就可以探索个人化、个性化、精确化和智能化地进行广告推送和服务推广服务,创立比现有广告和产品推广形式性价比高数倍甚至数十倍的全新商业模式。同时,网络公司也可以通过对大数据的把握,寻找更多更好地增加用户粘性,开发新产品和新服务,降低运营成本的方法和途径。
当然,不是任何公司都有这样的能力和意愿来进行这样的转身——它们则会在数据产业链中渐渐被淘汰——新兴崛起的创业公司同样有巨大机会。#p#
IT软硬件企业的新思路
另一个充满遐想空间的情景是:如果我们把大数据生态下的产业链继续展开,会发现围绕大数据形成的信息产业,将形成规模庞大的基础产业。一是数据技术产业,包括硬件方面的智能管道、物联网、服务器、存储、传输、智能移动设备等,软件方面的语言、数据平台、工具、结构与非结构数据库、应用软件等,服务方面的IDC、云计算、WEB应用等;二是数据采集业,包括定位、支付、SNS、邮件等行业;三是数据加工业,包括数据挖掘、数据分析、数据咨询等产业;四是数据应用业。这条覆盖了几乎整个信息产业全部领域的生态链建设,对我国亟待信息化转型的各行各业而言,也将具有直接的方向性意义,尤其是在基础设施和观念意识等方面。
事实上,目前政府和产业界积累了大量的数据资产,但是苦于缺乏行之有效的算法,来充分挖掘数据的价值。形象的说,好多行业是守着“金山要饭吃”。
而环顾全球范围内大数据的发展趋势和生态模式,一个最不容忽视的角色莫过于软硬件厂商的重视、转型和创造。软件方面,无论是甲骨文、EMC、SAP等数据行业巨头,还是Splunk、Cloudera以及Hadoop生态下的Hortonworks、MapR新兴公司,都已经在大数据领域发现和创造巨大价值。硬件方面,同样有IBM、惠普、思科等大型企业与一系列Hadoop生态下的创业公司参与其中,而在这方面,国内软硬件厂商处于落后状态。
究其原因,除了因为国内企业在数据库、数据仓库、商业智能等领域基础薄弱,大数据的意识和重视程度甚至创新精神,都是值得注意之处。不过,仍有神州数码、东软、浪潮信息、用友、科大讯飞等IT软硬件企业已经看到大数据的力量,开始在原有的业务和产品基础上加大数据领域的研发和投入,并拿出了初步的产品和方案,在大数据探索和研发层面走出了宝贵一步。
而且在大数据落地应用方面,国内厂商也有自己的“微创新”。例如,浪潮基于对数据产业的认知与积累,推出云海大数据一体机解决方案,重点面向行业大数据应用,是一体化的数据处理的产品化方案,采用新型技术体系架构,整合软硬件系统,涵盖数据存储、数据处理、数据展现等全环节。
以未来的视角看,无论是政府、互联网公司、IT企业还是行业用户,只要我们以开放的心态、创新的勇气拥抱“大数据”,大数据时代就一定有属于中国的机会。