12月19至20日,由腾讯主办的2020 TECHO PARK开发者大会在北京时尚设计广场举办。在大会主论坛上,腾讯杰出科学家、多媒体实验室总经理刘杉带来了主题为《从视频编解码到互动沉浸式媒体》的演讲,重点分析了视频编解码技术的演进迭代以及腾讯在新媒体及互动沉浸式媒体方向所进行的探索和尝试。
刘杉表示,世界性的疫情让很多领域的活动从线下转为线上,而如何在保持高质量服务的同时降低网络数据带宽的压力,向多媒体技术提出更高要求。腾讯作为一家互联网科技公司,旗下的很多业务和多媒体技术密切相关,因此视频编解码技术是腾讯所必备的重要核心能力。
在多媒体技术革新方面,腾讯在不断寻求突破。自2018年参与H.266/VVC标准制定以来,腾讯多媒体实验室约有100项技术被标准采纳,数量位居全球领先;为积极推动AV1商业化,腾讯云于2019年11月率先成为中国第一家支持AV1转码的云服务商;今年10月,腾讯在国内率先发布了H.266高清/超高清实时播放器。
在新媒体和沉浸式互动媒体方面,刘杉认为,随着5G时代的来临,深度沉浸式媒体广阔的应用场景和商业空间将被全面激活,而沉浸式媒体技术与实时媒体传输技术结合,可以生成更多沉浸式应用。目前腾讯已上线多个沉浸式媒体解决方案,以满足不同业务的开发需求。
在演讲最后,刘杉表示,未来腾讯将继续积极投入多媒体技术的研发,拥抱开源生态建设,为开发者和合作伙伴提供有效的服务和支持。
以下为刘杉演讲实录:
各位领导,各位同事,各位嘉宾,大家好。我是刘杉,来自腾讯多媒体实验室。非常遗憾今天不能够到现场,那么我就通过视频这个形式和大家做一个分享。今天分享的题目是“从视频编解码到互动沉浸媒体”。
去年的techo我做了一个“视频编解码技术与应用”的分享。那么今天分享的第一个主要内容,我会和大家简单介绍一下在这一年当中视频编解码技术的一些演进和迭代。在这之后,我会介绍腾讯多媒体实验室和腾讯云,在新媒体及互动沉浸式媒体方向的一些探索和尝试。
今年是特殊和具有挑战性的一年。世界性的疫情为我们的生活带来了巨大的改变,教育、办公、娱乐、销售等领域的很多活动都因为疫情的关系从线下变为线上,多媒体技术则为这些云服务提供了必不可少的支持。自三月以来全球视频流量激增,网络带宽面临巨大压力,世界各地屡次出现因网络压力过大而导致的区域性断网。欧盟委员会不得不约谈netflix 等网络影音服务商,要求在高峰期降低画质,将宝贵的数据带宽留给居家办公和学习。有调查结果显示,流媒体软件市场加速增长19%,如何在保持高质量服务的同时降低网络数据带宽的压力也为各项多媒体技术提出更高要求。
而与此同时,人们对视频观感质量的要求也在持续攀升。更高的分辨率,更高的亮度和色度动态范围,和更高的帧率等技术指标,配合VR360, Freeview等新媒体方式,在提升视频观感质量的同时,也对数据带宽提出更高的要求。互联网流量数据显示,在2017年标清和高清视频内容大约各占一半,到了2019年标清内容占比下降到大约1/3, 高清内容成为主流,超高清内容占比开始攀升;预计到2022年超高清内容占比会进一步提升到约总流量的1/4。同时,根据中国产业信息网,中国VR内容市场自2016年以来持续以每年2-3倍的速度增长。这些都使得视频编解码(即视频压缩)这一个已经存在了很多年的技术领域,即使在今天也依然具有其重要性和必要性。
而腾讯作为一家互联网科技公司,旗下的很多业务都和视频这一媒体形式密切相关,例如:腾讯视频,微视,微信,QQ,教育,泛娱乐等等,还有在这次疫情中为在线教育和远程办公作出巨大贡献的腾讯会议和腾讯课堂等产品。因此领先高效的视频编解码技术也是腾讯公司所需要和必备的一项重要核心能力。
简单回顾一下,在过去三十多年里,全球很多企业和研究机构投入巨大资源,研发了许多视频编解码技术,并形成了几代视频编解码标准。其中主流的标准有: ISO/IEC和ITU 制定的国际标准,像我们熟知的 MPEG-2, H.263, H.264/AVC, H.265/HEVC 和今年七月结稿的H.266/VVC. 腾讯于2018年初开始参与H.266/VVC标准制定,在历时两年多时间里,向标准组织提交几百个技术提案,其中约有100项技术被标准采纳,数量位居全球领先。
与此同时,自去年正式加入AOMdia,成为进入AOMedia 董事会的第一家中国公司以来,腾讯和其他AOMedia成员公司一起积极拓展开源生态,推动AV1商业化,腾讯云已于去年十一月率先成为中国第一家支持AV1转码的云服务商。在下一代开源视频编解码标准AV2制定方面,腾讯贡献了大量重要提案,包括通用测试条件,AV2需求文档等,并贡献了大量技术,涵盖了块划分,帧内预测,变换,量化,环路滤波等多项核心技术领域,累计贡献压缩比提升居世界前列。腾讯专家在AOMedia组织中和Google专家一起共同担任技术孵化组主席,并和Facebook专家一起共同担任软件实现工作组主席。
我们也大力投入国标AVS的建设,推广,和应用落地。目前腾讯云支持AVS2和AVS3高清/超高清实时转码,我们也为电视台等单位做了AVS私有化部署。
今年十月,在H.266/VVC标准第一版截稿仅三个月后,腾讯在国内率先发布了H.266高清/超高清实时播放器。这个播放器内置腾讯自研H.266软件解码器,可以支持高清、超高清以及屏幕内容分享等场景的实时解码,各项性能指标国际领先。
大家现在看到的就是用我们发布的H.266播放器在播放标准测试序列。
每套视频编解码标准制定,都需要有一套标准测试序列,用来检验各项提案技术的性能,来帮助决定该项技术是否应当被采纳进入标准。
腾讯的标志性序列,同时也是对我们业务具有代表性的内容,王者荣耀,也被VVC标准纳入测试序列集。
这个播放器目前已面向开发者开源。
腾讯云积极投入开源社区的建设,同时也将腾讯先进的技术能力通过腾讯云为各个行业开发者提供服务。在产品设计上,不仅针对国内市场,腾讯对海外业务也有充分的布局与考量,针对海外OTT市场,腾讯云打造了媒体服务系列产品,为国内产品国际化以及海外开发者和服务商提供充分的技术产品支持,媒体服务系列产品可提供RTP/HLS/DASH等8种海外常见流媒体协议,7天24小时全天候稳定直播服务,支持60多个国家和地区的本地化部署。
在科学技术迅速发展的今天,人们已经不满足于只是观看传统二维视频,而是渴望更真实更具沉浸感的体验。而沉浸式媒体,通过实现物理世界和虚拟世界的融合共生,被认为是改变未来生活和工作方式的颠覆性趋势之一。以VR为代表的沉浸式媒体内容市场在近几年显著增长,应用产业链迅速扩展,应用领域也越来越广泛,渗透到例如文旅,教育,娱乐,医疗和制造等行业。预计到2025年沉浸式媒体市场规模发展可达到161B usd(1611亿美元)因此更多的公司和厂家也正在加大沉浸式媒体技术研发和生产的投入。
更深度的沉浸式体验,主要体现在真实场景的6DOF、更清晰和流畅的内容显示、多通道交互等方面,依赖VR、AR、点云、Freeview等核心技术,配合图片、视频、文字、声音等传统媒体格式,结合压缩、传输、显示、交互等环节,通过手机、电脑、头戴式、大屏等不同设备进行最终呈现。从沉浸式应用场景来看,正在从面向个人娱乐的消费类市场深化发展到企业级市场的垂直行业应用场景。未来随着5G的大规模普及,沉浸式媒体硬件及技术的进一步突破、制作成本的下降以及更多优质内容的开发,将推动沉浸式媒体产品和服务被主流群体采纳,深度沉浸式媒体广阔的应用场景和商业空间将被全面激活。
一个高质量高效率的互动沉浸式系统包含了从采集,处理,压缩,传输,到解压缩,后处理,渲染和交互等多个技术模块。里面包含的技术有例如投影,采集拼接,FOV,自适应传输等技术,涉及的传输协议有HLS, DASH, RTC等。因为沉浸式媒体内容的数据量比传统高清/超高清视频更庞大,比如这里展示的VR360演唱会,和freeview 篮球比赛,那么如何将所有这些技术模块有效结合,综合优化,对提供优质的端到端体验就更为重要和关键。
将沉浸式媒体技术与实时媒体传输技术结合,可以生成更多沉浸式应用。比如,传统的视频会议只能采用单一固定镜头,视野和互动性都具有一定局限性。通过融入沉浸式技术,可以创造出三自由度和六自由度的视听效果,结合虚拟会议室设置,为与会者提供更加全面的会议信息和更加丰富的会议体验。
点云是沉浸式媒体领域又一项具有代表性的技术,近两年也正在得到更多的关注。点云端到端系统包括点云数据的处理、压缩、模型重建和渲染、互动等技术模块。腾讯自研点云系统可以通过视频、图片、深度等信息进行三维物体和空间重建,可用于如会展和房地产等业务场景。由于点云采用三维空间点阵的方式来表达真实物体和场景,可想而知构建一个高精度点云模型所需要的数据量是非常巨大的。因而点云数据压缩也是点云系统中不可缺少的一个环节。腾讯多媒体专家积极参与点云压缩国际标准制定并有技术提案被国际标准采纳,同时担任AVS点云专题组联合组长。
腾讯云现已上线多个沉浸式媒体解决方案,包括VR视频解决方案,腾讯临境沉浸式解决方案等,以满足不同业务的开发需求。腾讯临境沉浸式解决方案可以提供完整空间建模能力,并支持H5页面、安卓、IOS手机端、小程序端全平台展示和分享。
我们已经逐步进入5G时代。5G网络提供给我们超强的带宽,超低的延迟,使得更多的应用触手可及,也使得万物互联成为可能。在5G的影响下,媒体内容的生产,获取和传播方式都在发生变化。无论是4K/8K,还是VR/AR/MR/点云,这些在过去因为受限于网络带宽的应用,在5G的推动下可能会迎来突破。腾讯将继续积极投入多媒体技术的研发,拥抱开源生态建设,为开发者和合作伙伴提供有效的服务和支持。
谢谢大家。