【51CTO.com原创稿件】作为最重要的基础技术之一,腾讯云大数据技术有效地支撑着腾讯内部所有业务,并为各行业的数字化提供基础服务。从最初解决计算的问题,到解决时效性的问题,再到提升平台拥有的数据价值,到现在的平台体系智能化演进,可以说是一个从粗狂到精细化耕耘的过程。
早些时候,腾讯主要使用传统的关系型数据库。2009年开始,传统的单机数据库所提供的服务,在系统可扩展性、性价比方面已不再适合腾讯业务爆发式的增长。面对这种变化,腾讯大数据转向分布式,基于开源的Hadoop体系,构建了腾讯云第一代大数据平台,并建设离线计算平台,主要发力规模化。腾讯云大数据由此进入第一阶段。三年中,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯云大数据的单集群规模突破了4400台。
2012年,移动互联网爆发,为了应对业务数据统计及时性、快速性的需求,腾讯云大数据从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系,腾讯云大数据发展进入第二阶段,用Java重写了Storm,同时配套自研了TubeMQ。
2015年2018,腾讯云大数据迈入了第三阶段。随着数据挖掘、数据应用的深入,腾讯云大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可以进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。Angel由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性,不仅支撑腾讯自身业务需求,在行业上也具有里程碑意义。
2019年开始,业界已经开始尝试人工智能辅助大数据运营,但是不够体系化,腾讯云大数据的第四阶段把此作为了重点,让大数据与AI框架融合互惠,让大数据装上AI大脑,既能够解决数据的问题,又能够反哺整个平台更好的智能化、体系化运营,辅助腾讯内部包括问题的诊断、分析、优化、成本的降低。
三层产品矩阵:基础设施、产品开发、应用服务
说完腾讯云大数据的发展历史,再来说说腾讯云大数据的产品矩阵。首先最底层是基础的存储计算设施,如EMR、神盾联邦计算等。这一层除了提供基础设施之外,还能够帮助企业运维工程师快速构建一个性能比较卓越并且成本很低廉、更安全的算力。
向上的一层是产品开发层,强调的是开箱即用,可以用一个平台搞定某一个业务场景开发的所有内容,可以让企业的开发人员更多地关注业务,而不用太多考虑平台本身。
最上面的应用层,则会提供各种各样的接近业务的SaaS化的产品,如营销的能力、增长的能力,BI的能力,风控的能力等。
总结起来,腾讯云大数据的产品矩阵分为三层:基础设施、产品开发、应用服务。
今年,腾讯云大数据的研发重心在哪里?发布了哪些重要产品?腾讯云大数据平台最新数据是怎样的?这些问题都在刚刚召开的腾讯全球数字生态大会2020上给出了答案。
全链路数据开发平台WeData
腾讯云副总裁刘煜宏透露,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度的数据训练。腾讯云不仅已经成为国内算力最强的云厂商,同时也是日实时计算量最大的公司。
腾讯云副总裁刘煜宏
据腾讯云大数据产品副总经理雷小平介绍,今年腾讯云大数据的研发重点在场景开发层,并在会上重磅发布了全链路数据开发平台WeData。
腾讯云大数据产品副总经理雷小平
WeData提供了涵盖数据即席分析、数据任务可视化编排、运维等在内的全链路数据开发能力。借助于WeData,企业数据开发门槛可有效降低60%。同时,WeData在云端构建了统一的元数据管理能力,涵盖技术元数据和业务元数据的管理,并打通了EMR、CDW数仓、MySQL甚至对象存储等在内元数据,以便于企业数据在不同云端数据设施之间进行无缝流转的同时,还能保障其元数据的一致性和可维护性。另外,WeData还为数据科学家提供了全面的资产管理、数据治理能力,全面提升数据价值发现的效率。
在应用层面,QQ音乐基于WeData产品进行了大数据能力的重构。在重构之前,所有的数据分析能力都是基于Spark构建,所有报表的延时也都是小时级。在将热数据全部升级到Clickhouse,并通过WeData进行数据开发工作,重构完成之后数据决策能力从小时级别提升到秒级。
由此可见,WeData打通了通用大数据开发和数据治理中涉及到的所有环节,实现了全链路覆盖,让用户可以将精力更多地投入在业务增长。
除了全链路数据开发平台WeData之外,在更细分的场景上,腾讯云大数据推出流计算服务Oceanus、云数据仓库CDW、ES、弹性MapReduce、神盾联邦计算以及企业画像等6项重磅能力发布和升级,旨在覆盖大数据的全生命周期,满足企业数字化转型中的新需求:统一平台、异构算力、企业级安全。
做好安全、智能和统一,实现AB融合
人工智能与大数据融合(AB融合)已经成为未来信息技术发展的一个趋势,并将成为新一轮数字经济的核心驱动力。在腾讯云大数据基础平台总经理陈鹏看来,目前是B帮助了A,而A并没有帮助到B。所以,B如何有效辅助A,A与B如何在架构上进行融合,将是下一代计算平台的发展方向,即安全、智能和统一。
首先在安全方面,虽然大数据本身采用集群是要解决孤岛的问题,但是目前解决的只是将分散部分的数据聚集在一起的问题,并没有解决在欧洲GDPR及其他一些政策法规导致的,数据分散在不同团队,不同职能部门,数据库又不相通的问题。所以安全是一个重点,腾讯云分别在A和B上实现了计算过程的安全,目前正在研发联合计算平台,实现在保护数据隐私的同时,提供联合数据分析、联合数据建模等能力,实现数据的互融互通,释放数据价值。
第二是智能,即如何让A帮助B。AI并没有能够体系化的去辅助大数据做更多的运营,这是在AB融合过程最为重要的一个方面。目前的集群规模已经达到十万台,且每年都在按照40-60%的规模发展,然而如此大规模的集群多半还是人工辅助工具去解决运营工作,腾讯希望后续能够将线上运行的数据回流反馈,基于机器学习获得智能化的决策,基于这些决策及指标数据,优化调度性能、驱动硬件的定制。
第三,统一。包括框架的统一、AB技术融合统一等。
从框架统一来说,大数据的技术栈目前发展得已经非常复杂了,仅在计算方面,就有Spark、Hadoop等,如何保证企业本身不会被业界复杂的、频出的系统,影响到整体架构的延伸,是框架统一要解决的问题,腾讯大数据体系就非常适合解决这样的问题。
在AB技术融合统一方面,AB底层算子和分布式运行有着很强的相似性,如大数据的join、aggregator、sort和AI的grad、dot、softmax等,可以通过运行的机制做一些融合;在计算引擎方面,通过统一批、流、图三种计算形态,涵盖DAG、PS、MPI多种shuffle模式,基于成本的优化,统一执行计划优化,还有基于编译技术软硬件集合,通过代码生成适配异构硬件,计算型算子下推到GPU、FPGA等, 所以从这些角度来说,AB的融合是一个体系化的融合,而不是一个单点的融合,这种趋势最终能给用户带来一站式的数据处理体验。
企业数字化转型正在高速演进中,腾讯云大数据将继续发挥统一平台、异构算力、企业级安全方面的优势,提供从基础设施、场景开发、应用服务的全场景、全托管能力,助力企业客户降本增效、优化用户服务,让大数据为数字经济发展释放更多新动能!
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】