数据成为 DT 时代的核心要素。 今年上半年互联网热出现一个新动向,就是入口和应用场景的争夺已到了短兵相接、贴身肉搏的激烈程度。巨头们争夺的最终目标是数据资源。数据已成为 DT(数据技术)时代的核心要素。世界经济论坛报告曾经预测: “未来的大数据 将成为新的财富高地,其价值可能会堪比石油”,成为战略性资源。
被低估的影响:大数据将指引人类走向智能社会。 一方面大数据“量”和“质”的双提升奠定人工智能的基础,另一方面数据驱动颠覆传统计算机算法,导致人工智能出现突破性进展,而人工智能又进一步加速了大数据价值的挖掘和应用,使人类社会进入了向智能社会 发展的“正循环”。
政府:推动大数据应用的最关键力量。 政府拥有最多且最具应用价值的核心数据,一方面大数据已经上升至各国国家战略,政府推进大数据开放已经是大势所趋: 美国等发达国家纷纷布局大数据产业,推出大数据相关政策。大数据对整个世界的影响力呈现快速增长趋 势,将引发新一轮大国竞争。 另一方面我国对大数据的政策支持力度上不断提升,大数据战略将上升至国家战略, 国务院已经下达各部委大数据工作任务行动时间表,大数据发展紧迫性和必要性可见一斑,同时也意味着我国大数据发展面临历史性机遇。
数据价值正在被不断发现。 互联网早期有句名言 “在网上,没有人知道你是一条狗。 ”如今有了大数据,在网上,不仅有人知道你是一条“狗”,而且还知道你是一条什么样的“狗”,爱吃什么、什么时候睡。大数据除了具有挖掘商机、精准营销、 决策支持、提高效 率等发现价值功能,还有创造价值的功能:能创造新的消费体验、创造新的商业模式和创造新的消费需求。
大数据产业链: 一是数据收集, 其途径:
1、自行收集。如今年 1 月工行“融e 购”商城正式上线,其目的是希望通过发展电商来获得大数据方面的主动权;
2、与第三方合作。如平安银行携手 eBay 推出“贷贷平安商务卡”;
3、“线下数据”转变为“线上数据”。传统行业的“线下数据”转变为“线上数据”将是 DT 时代的血液之一。 “线下数据”就是传统行业的优势。
二是数据处理,数据处理包括鉴别、整理、归类以及建模分析、挖掘利用等,数据科学家可能成为未来最热门职业。三是技术支撑,包括硬件和软件两部分。
大数据与产业的聚合效应。 大数据与生物医药、农业、电信、视频、 互联网金融、工业互联网、车联网、信息安全等产业的结合将产生巨大的化学反应。
1. 大数据: DT 时代的核心要素
1.1. 大数据是未来社会的核心资源
大数据是“互联网+”的核心要素。 互联网的未来在于连接一切,从连接人与人向连接人与服务、人与物、物与物扩散, 使得海量数据的生产和连通变成现实,成为大数据应用的基础。 尤其在传统行业,信息及数据是被忽视的, 缺乏有效的手段进行充分利用, 互联 网与传统产业融合的重要目的在于将潜在信息和数据的价值进行释放, 因此,评价“互联网 +”的指标绝非是简单的信息化,而是对企业的整体生态系统进行数据化, 让企业的一切业务都变得可以分析, 进而更好的识别市场和用户。
从某种程度上来说, 数据是现实世界在虚拟世界的一个“映像”, 可以通过数据挖掘对“虚拟映像”进行分析, 进而对工作流程、商业模式、产品设计产生巨大的影响, 服务于产业本身。 正如马化腾所说,“互联网 +”代表的是一种“信息能源”,能够促使互联网 与传统产业不断融合。
数据逐渐成为整个经济社会的核心资源。十八世纪的农业社会,经济整体以农业为主,十九世纪制造业起步, 1950 年 GDP 大部分是制造业, 而未来数字经济占据经济的主体地位已经成为必然的趋势。全球经济从农业经济到工业经济再到信息经济演变的驱动力来自于 技术的突破,技术在改变生产力和生产关系。信息要素全面升级,尤其是云计算正在变成基础设施,数据在变成整个经济社会的核心资源。
1.2. 被低估的影响: 大数据将指引人类走向智能社会
1.2.1. 大数据“量”和“质”的双提升奠定机器智能的基础
第一,万物互联造就了数据“量”的阶跃发展。 从人类文明出现到 2003 年,人类总共才产生了 5EB(ExaBytes)的数据。计算机出现后, 尤其是近年来移动互联网和物联网的出现, 数据产生的速度和规模开始急剧提升, 过去几年产生的数据比以往 4 万年的数据总 量还要多。预计随着互联网与产业的加速融合,未来数据体量的增速将呈现指数上升态势。 IDC 预计 2020 年全球数据使用量将达到 40ZB(ZettaBytes),需要约 429 亿个 1TB的硬盘进行存储,届时中国产生的数据量将占到全球总量的 21%。
第二,数据逐步趋向与由“端”产生, 从“质”上讲兼具多维性与完备性。 数据的产生一定会在云、端、网这三个视角产生。 2014 年全球互联网用户有 30 亿, Facebook 有 22亿注册用户,月活跃用户超过 13 亿人口。我们在 2014 年全球智能手机出货量突破 13 亿,连网设备超过 300 亿个。 未来可能会有 80-90%数据基于用户智能终端和联网设备产生,由于这些数据连接人体、连接环境、连接物体、连接思想, 将原来看似无关的维度(时间、地域、食品、做法,成分,人的身份和收入情况等)联系了起来, 构成了今天的非常 生动的数据社会的景象,这种数据连接起来才能流动共享,真正实现数据的社会经济价值。
1.2.2. 数据驱动颠覆传统计算机算法, 导致人工智能出现突破性进展
互联网的发展为训练机器模型提供了足够多的数据量,而这种数据驱动算法以深度学习为代表,不但颠覆了传统的计算机算法,也使得人工智能出现突破性拐 点。一个典型的例子是 2005 年 NIST 对全世界各家机器翻译系统评测的结果中,从未做过机器翻译的Google, 不仅一举夺得了各项评比的第一名,而且将其它单位的系统远远抛在了后面,而 Google 系统和其他系统主要的优势就在于使用了其他对手近万倍的数据量。 而国内人工智能代表公司科大讯飞近几年在采用深度学习算法,利用大数据训练后,近几年其语音识别和手写识 别错误率均保持 30%-50%的下降。
1.2.3. 大数据与人工智能相互促进,实现发展的正循环
人工智能是解决大数据的数量和效率之间矛盾的关键
传统的机器学习通过标记数据进行有监督学习,随着其处理数据量的增大, 需要外界的支持和帮助也就不断增加, 且计算结果准确性也会受到影响。 因此越来越多的数据将成为负担,也更容易达到极限或产生错误结果。人工智能的突破性技术——深度学习是从未经标 记的数据展开学习,更接近人脑的学习方式,可以通过训练之后自行掌握概念,且输出结果会随着数据处理量的增大而更加准确。同时,深度学习在加速回归定律的 指引下会使得进化过程中产物(输出结果)获得指数级增长,当深度学习的效率变得更高,就会吸引更多 的资源向它聚合,使其发展更为迅速。
大数据利用人工智能实现大数据应用的正循环
百度首席科学家吴恩达层提出 : 从优秀产品到大量用户,再到海量数据,最后返回优秀产品是一个良性循环,但最后一个环节“海量数据到优秀产品”会出现问题,因为当数据积累过多时,就无法对这些数据进行完整和准确的处理。
以百度为例, 百度的数据处理自上而下分成开放云、数据工厂和百度大脑三个层级,最底层的开放云收集数据,数据工厂对数据库进行管理,最上层百度大脑的模拟神经网络通过 机器学习高效的输出结果,从而实现行业应用,百度大脑就是在最后一个环节体现出巨大价 值,带来更好的信息处理能力,从而产生更加广泛和深入的行业应用,比如百度大数据此前在医疗、交通和金融领域的应用。