自2014年“大数据”首次进入政府工作报告,中国市场就开始了一场大数据的“淘数”热。2015年开始的中国国际大数据产业博览会(简称:数博会)到2020年新冠疫情期间的“永不落幕的数博会”,经过历时5年6届数博会的洗礼,已经把“大数据”的观念推广到街头巷尾。而在过去的5年间,中国的大数据技术产业也已经蓬勃而起,形成了强有力的技术支撑体系——根据中国信通院,截止2020年10月我国活跃大数据企业超过3000余家。
经过5年的发展,如今“大数据”已经走单纯的技术架构和技术体系,走向了社会基础设施。2020年“新基建”就将“大数据中心”定义为数字新基础设施的重要建设内容。2020年底,上海市发布了《关于全面推进上海城市数字化转型的意见》,鲜明提出要“再造数字时代的社会运转流程”,特别是引导企业实现基于数据的“决策革命”,引导市场重塑数字时代的认知能力与思维模式,推动政府以数据驱动流程再造。
然而,根据中国信通院的《大数据白皮书(2020)》:企业运营中的数据只有56%能够被及时捕获,而这其中仅有57%的数据得到了利用、43%的采集数据并没有被激活,也就是说仅有32%的企业数据价值能够被激活。虽然未来两年,企业数据将以42.2%的速度保持高速增长,但如何激活数据价值、真正从大数据中“淘金”,成为2021年大数据的重中之重。
数据融合与数据价值挖掘
数据融合对于数据价值挖掘来说,具有重要的意义。中国工程院院士邬贺铨在“永不落幕的数博会”2020系列活动——“大数据产业生态创新发展高峰会”上表示,数据融合利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性、数据安全性。同时,数据的融合利用面临着建立数学模型的挑战,大数据挖掘面临算力与算法、数据样本准确性、小数据、人与数据融合的挑战。
邬贺铨认为,在智慧城市管理与工业互联网中有很多需要数据融合应用的场景,多元异构的数据融合将盘活数据,通过数据挖掘开发数据价值,发挥数据作为生产要素的作用。数据挖掘和AI分析需要面对海量处理能力、云边端协同、建模、小数据、人与数据融合、数据自身安全、隐私与商密保护等的挑战,需要从基础理论与工程实践多方面研究数据要素价值挖掘的问题,开发出更多的大数据和AI分析技术。
在跨企业数据融合时,还要保证数据能共享但敏感数据不外泄,需要建立新的数据隔空分析机制,以虚拟的黑箱使得数据既不脱离所在单位的管理又能被授权的其他单位调用,现有基于黑盒子的可信计算环境方式,但仍需证明第三方的可靠性。
在创新数据流通技术手段方面,联邦学习是一种重要的机器学习框架。联邦学习是针对“数据孤岛”和数据共享中的隐私安全问题而提出的机器学习框架,传统的方式是需要将数据硬拷贝移动到授信的第三方,而联邦学习则希望达到各个企业和机构的自有数据不出本地,通过加密机制下的参数交换方式,建立一个虚拟的共有模型,数据本身不移动也不泄露隐私或影响数据合规。
数据敏捷型经济体
世界各国都在加强发展大数据,推出国家级数据战略,探索数据发展之路。其中,欧盟的数据战略极具体代表性。由于欧盟是由20余个国家所组成的经济联合体,欧盟所制订的各类政策对于其它单一国家或经济体来说,更前瞻性考虑到不同市场、国家和区域之间的协同、平衡和包容性,也更具有代表意义。
根据中国信通院《大数据白皮书(2020)》,欧盟为了应对未来发展而致力于平衡数据流动与广泛使用,希望通过建立单一的数据市场,确保欧洲在未来的数据经济中占据领先地位。2020年2月,欧盟委员会公布了《欧盟数据战略》,对欧盟数据发展提出了明确的愿景目标——2030年欧洲将成为世界上最具吸引力、最安全、最具活力的数据敏捷型经济体。即在保持高度的隐私、安全和道德标准的前提下,充分发掘数据利用的价值造福经济社会,并确保每个人能从数据红利中受益。
2020年5月,赫尔辛基欧盟办公室成员组织(Helsinki EU Office members)联合发布了《数据敏捷型经济:从被动到主动式,更好的服务社会》白皮书2.0版本,建议了从被动利用数据向主动利用数据而转型的立法框架:创新型跨部门利用数据,从而在更高效、主动和个性化公共服务中起到主要作用;不同生态伙伴之间的紧密合作,包括公共机构、RDI组织、私营企业和NGO非营利性机构,对释放数字化转型潜力起到关键作用;让每个人都可以按自己的方式使用和利用个人数据,从而为个人带来收益以及为社会贡献;通过更好的数据管理和更高水平的数据文化及数字技能,实现数据信任和民众的赋能。
知识图谱与决策智能
随着大数据的发展,企业和公共机构越来越需要将不同的数据进行有效链接,从而形成新的动态知识,以辅助企业和公共机构的决策。这就需要运用图数据库、图计算引擎和知识图谱,其中知识图谱是图数据库和图计算引擎的重要应用场景。根据DB-Engines排名分析,图数据库关注热度在2013年到2020年间增长了10倍,关注度增长排名第一,远远高于其它数据库或数据引擎。用户画像和信用档案等,是知识图谱的新应用场景。
满帮集团是一家崛起于贵州的大数据独角兽企业。满帮是一家公路物流领域的智能运力平台,连接货车司机及货主双端用户,通过大数据的智能推荐帮助双方快速完成运输交易,提高运输效率,减少交易成本,降低货车空驶率。2020年11月底,继2018年19亿美元融资后,满帮宣布完成约17亿美元新一轮融资。截至2020年11月,满帮平台认证司机超过1000万,认证货主超过500万。
物流行业是一个信用体系并不很健全的行业,此前每成交四个交易就会发生一起纠纷,纠纷成本非常高。满帮建立了一个梵高系统,为每一个用户、司机、货主都建立了信用档案画像,囊括了200多个维度的指标,同时建立失信黑名单,与国家发改委和国家信息中心“信用中国”系统联通,实施联合惩戒,还被纳入央行征信系统,为卡车司机打造“第二张身份证”,将行业纠纷率由25%下降到3%。
目前,国内的阿里云、华为、腾讯、百度等大型云厂商以及一些初创企业都在布局图数据库、图计算引擎和知识图谱,特别是知识图谱已经开始深入应用到金融、工业、能源等多个行业和领域。知识图谱正在成为企业决策的重要技术平台与工具。
产业物联网提速
物联网是大数据的一个重要来源。传统观念认为消费物联网是物联网大数据的主要来源,但随着产业物联网的飞速发展,产业物联网正在超越消费物联网而成为物联网大数据的主要来源。根据中国信通院《物联网白皮书(2020)》,随着物联网加速向各行业渗透,行业的信息化和联网水平不断提升,产业物联网连接数占比将提速。
据GSMA Intelligence预测,产业物联网设备的联网数将在2024年超过消费物联网的设备数。在中国,2019年中国物联网连接数中,产业物联网与消费者市场各占一半,预计到2025年中国物联网连接数的大部分增长来自产业市场,产业物联网的连接数将占到总体的61.2%。智慧工业、智慧交通、智慧健康、智慧能源等领域,将最有可能成为产业物联网连接数增长最快的领域。
产业物联网的大数据处理涉及到边缘计算。市场调研机构IDC预测,未来超过50%的数据需要在边缘侧进行存储、分析、计算,到2024年全球边缘计算市场将达到2506亿美元。在中国市场,2020新基建中的5G、AI、智慧交通、新能源汽车充电桩、工业互联网等都是与边缘计算相关的技术或场景。
根据2020年12月由边缘计算产业联盟(ECC)与工业互联网产业联盟(AII)联合发布的《边缘计算与云计算协同白皮书2.0》,运用AI技术进行边缘数据处理正在面临挑战:AR、VR、互动直播、视频监控等场景下非结构化数据为主,挑战在于数据量大、资源用量大、实时要求高、数据标注困难等;工业场景下IoT结构化数据为主,挑战在于样本少、冷启动和要求模型可解释和可靠性。边云协同AI框架的关键技术包括:增量学习、联邦学习、联合推理等。
数据安全热度持续上升
数据共享与流通是释放数据价值的重要方向。中国工程院院士沈昌祥在“永不落幕的数博会”2020系列活动——“大数据产业生态创新发展高峰会”上作了《用主动免疫可信计算保障数字经济高质健康发展》主题演讲。他表示,数据“科学”发展经历了数值计算、数据工程、数字社会的过程。网络空间已经成为继陆、海、空、天之后的第五大主权领域空间,没有网络安全就没有国家安全。
大数据、数字经济要通过相应的法律制度以及相关措施来保障健康发展。一是改变计算方式,边计算边保护;二是构建免疫系统,改变安全体系结构;三是网络系统安全要构建“安全办公室”“警卫室”“安全快递”这“三重”防护框架;四是对人的操作访问策略四要素(主体、客体、操作、环境)进行动态可信度量、识别和控制;五是对“风险分析、准确定级”“评审备案、规范建设”“感知预警、应急反制”“严格测评、整顿完善”等环节进行全程管控,技管并重;六是达到非授权者重要信息拿不到、系统和信息改不了、攻击行为赖不掉、攻击者进不去、窃取保密信息看不懂、系统工作瘫不成等“六不”防护效果。
中国信通院《大数据白皮书(2020)》还指出:基于隐私计算的数据流通技术成为实现数据联合计算的主要思路。在数据合规流通需求旺盛的环境下,隐私计算技术发展火热。隐私计算在保护数据本身不对外泄露的前提下,实现了数据融合,为安全合规的数据流通带来了可能。
总结而言:进入2021年,大数据已经从单纯的技术体系,向着与实体经济结合、真正挖掘和发挥数据价值的方向发展。特别是新冠疫情和新基建,加速了大数据与实体社会基础设施的快速融合,而5G与物联网等的快速发展也进一步加大了大数据与实体经济的深度融合。随着数博会即将进入第6个年头,大数据将真正深入到社会经济的方方面面,推进下一轮经济长周期。