12月18日,深圳 - 腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel,并预计于2017年一季度开放其源代码,鼓励业界工程师、学者和技术人员大规模学习使用,激发机器学习领域的更多创新应用与良好生态发展。
腾讯今日在腾讯大数据技术峰会暨KDD China技术峰会上宣布这一消息,腾讯副总裁姚星先生,及腾讯数据平台部总经理、***数据专家蒋杰先生出席了峰会并发表演讲。
姚星表示:“人工智能的发展在过去60年中几经沉浮,今年终于发出了璀璨光芒,很大的原因就是跟云计算和大数据有关,这是一种演进发展的必然结果。如何处理好大数据,如何在有限的计算资源上对这些大数据进行深入挖掘和分析,这是未来整个产业发展和升级的一个大课题。我相信大数据将成为这次产业升级的基础,核心算法将成为这次产业升级的灵魂。”
“面对腾讯快速增长的数据挖掘需求,我们希望开发一个面向机器学习的、能应对超大规模数据集的、高性能的计算框架,并且它要对用户足够友好,具有很低的使用门槛,就这样,Angel平台应运而生。”蒋杰表示:“机器学习作为人工智能的一个重要类别,正处于发展初期,开源Angel,就是开放腾讯18年来的海量大数据处理经验和先进技术。我们连接一切连接的资源,激发更多创意,让这个好平台逐步转化成有价值的生态系统,让企业运营更有效、产品更智能、用户体验更好。”
Angel是腾讯大数据部门第三代的计算平台,使用Java和Scala语言开发,面向机器学习的高性能分布式计算框架,由腾讯大数据与香港科技大学、北京大学联合研发。它采用参数服务器架构,解决了上一代框架的扩展性问题,支持数据并行及模型并行的计算模式,能支持十亿级别维度的模型训练。
不仅如此,Angel还采用了多种业界***技术和腾讯大数据自主研发技术,如SSP(Stale synchronous Parallel)、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高,达到常见开源系统Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。
在系统易用性上,Angel提供丰富的机器学习算法库及高度抽象的编程接口、数据计算和模型划分的自动方案及参数自适应配置,同时,用户能像使用MR、Spark一样在Angel上编程,我们还建设了拖拽式的一体化的开发运营门户,屏蔽底层系统细节,降低用户使用门槛。另外,Angel还支持深度学习,它支持Caffe、TensorFlow和Torch等业界主流的深度学习框架,为其提供计算加速。
自今年初在腾讯内部上线以来,Angel已应用于腾讯视频、腾讯社交广告及用户画像挖掘等精准推荐业务。
今年11月,腾讯云大数据联合团队在有“计算奥运会”之称的Sort Benchmark排序竞赛中,用时不到99秒完成100TB的数据排序,在测试大规模分布式系统软硬件架构能力和平台计算效率的GraySort和MinuteSort两项排序竞赛中夺得4个冠军,将去年冠军的纪录分别提高二到五倍。冠军的背后是腾讯大数据多年的积累,而Angel更是腾讯大数据下一代的核心计算平台。
在此次会上,姚星谈到了腾讯对于大数据和人工智能的看法。蒋杰详细分享了此次夺冠背后腾讯大数据的发展之路,及Angel系统构建的生态圈层。以下为演讲全文:
大家早上好,非常高兴今天参加kdd china技术峰会。过去的20年是信息时代快速发展的20年,信息产业的发展远超其他产业。信息产业的发展提升了人类的生活品质,也深深影响着我们这一代人。信息产业的高速发展离不开计算能力的提升,无论是我们使用的处理器计算能力还是网络传输能力,在过往20年发展中都保持了“摩尔定律”的趋势,使得我们互联网产品深入千家万户,得到了广泛应用。随着互联网产品渗透率的逐步趋稳,互联网产业今后的发展趋势在哪里?什么样的技术、业务形态会***后续的产业发展?时至今日,我想答案毫无疑问是人工智能。人工智能在过往的60年发展中几经沉浮,起起落落,在今年散发出璀璨的光芒,人工智能的兴起是大数据、云计算科学进步的产物。充分利用计算资源,对海量大数据通过算法进行进一步的挖掘分析,这是互联网产品和产业的未来发展趋势。大数据是基础、核心算法是灵魂。腾讯公司通过18年的发展今天已经成为了***的互联网公司。过去我们在产品体验上更加关注的是简单、好用。通过简单的方式提升人们的沟通效率,通过简单的方式让人们轻松享受数字内容时代。在技术上,我们过去更加关注的是工程技术,也就是海量性能处理能力、海量数据存储能力、工程架构分布容灾能力。未来腾讯必将发展成为一家***科技的互联网公司,我们将在大数据、核心算法等技术领域上进行积极的投入和布局,和合作伙伴共同推动互联网产业的发展。
腾讯公司是一家消息平台+数字内容的公司,本质上来讲我们也是一家大数据公司,今天我们每天产生数千亿的收发消息,超过10亿的分享图片,高峰期间百亿的收发红包。每天产生的看新闻、听音乐、看视频的流量峰值高达数十T。这么大的数据如何处理好,使用好的确是***挑战的。在大数据上腾讯也秉承开放生态理念与合作伙伴一起共建大数据生态,在云、支付、LBS、安全方面,与生态合作伙伴共建基础设施,与合作伙伴一起助推产业升级。
今年腾讯成立了AI实验室,我们确立的是四个基础的研究方向,包括计算机视觉、语音识别,自然语言处理,以及机器学习。我们也确立了四个业务发展方向:首先我们会聚焦于内容AI,主要聚焦于搜索和个性化推荐,除了文本以外的深度内容再加上富媒体内容的深度理解。第二个是游戏AI,这是基于腾讯业务本质特性相关的。我们会打造竞技类游戏相关的AI能力。第三个方向我们会构建社交AI,这是基于我们腾讯最主要的社交平台的AI。相信在未来的产品形态上会出现智能音响也好,智能助手也好。第四个是云AI,我们会把我们的图象识别能力、语音识别能力、自然语言处理能力以及大数据机器学习的平台开放给更多的用户使用。腾讯的AI使命是最终打造广义通用AI,实现每个人心中的“大白”。使得我们的小朋友更加的“被理解”,使得我们的成年人更加的“被保护”,使得我们的老年人更加的“被照顾”。
目前AI整个行业还处于早期阶段,虽然在某些垂直领域已经或者达到了某些人类的平均智能水平,但是这与人的综合智能还相差甚远。无论我们有如何先进的算法模型,我们都需要重新训练数据。无论我们有如何深层的网络模型,本质上都是通过算力解决问题。这和人与生俱来的智能,以及“创造力”、“举一反三”、“归纳总结”能力都相差甚远。但是我们也看到了积极的方向,比如deepmind的reinfocement的强化学习的发展进步,openai的gan生成对抗网络的发展。这些积极的发展使得AI的领域发展日新月异。
我相信在与会的各位专家和各位从业精英的积极投入和参与下,AI的发展必将朝气蓬勃、势不可挡!***预祝大会圆满成功!谢谢!