【51CTO.com原创稿件】VR直播是2016年VR行业的热点,用户和从业者都希望它能够缓解VR内容不足的问题。然而,目前VR直播还面临着很多问题,系统落地难度比较高,用户体验也不够好。从系统落地角度,拍摄、编码压缩、网络传输和播放等各个环节需要进行系统的设计和优化。从用户体验角度,需要在临场感、沉浸感和互动性三个方面一起发力,才能为用户提供合格的VR直播。
【讲师简介】
任福新,RGB联合创始人兼CTO。中科院计算所博士,互联网创业老兵。在数据挖掘,推荐系统,游戏,虚拟现实等领域有多年研发经验。2015合伙组建RGBVR团队,致力于VR视频点播和直播产品研发与关键技术研究,已推出国内***全功能的VR视频播放器-小花看看,国内***3DVR秀场直播平台-小花秀,并预计为行业开发者开放其直播服务。
VR直播火爆
据相关咨询公司有关数据报告,2016年,VR市场规模预计会达到56亿,到2020年,可以达到556亿,接近10倍的增长。网络直播,截至2015年年底,有平台200余家,在线人数有400万。在今年上半年手机直播火爆之后,直播平台数量保守估计已经有400家,在线人数也已经远远被刷新了,例如,Papi酱的网络首秀,对外宣称的同时在线人数有2000万。
VR市场、VR技术被寄予厚望,是一个新技术,一种黑科技。VR直播是大众娱乐一种很重要的内容形式,通过网络直播方式去沟通交流、交友、获取信息,已经成为一种潮流。VR直播的一个优势,就是能给大家带来身临其境的体验,成为一种很重要的内容消费形式。
VR直播的挑战
无论是开发者,还是硬件厂商,都会面临一件苦恼的事情:做出来了头盔,搭建了一个平台,买了很多版权,有很多内容,但是消费者就是不买账,号称有400万注册用户,但其实每天日活只有一两万。这时,一些问题就浮出水面:适合VR的内容形式与表演方式是什么样的?怎么拍摄高质量的VR视频?怎么分发和存储高分辨率和高码率的VR视频?如何呈现、交互?
VR直播流程
VR直播流程和普通直播流程很像,但要达到身临其境的感觉,在头盔端需要达到4K甚至更高的分辨率,所以整个流程的各个环节的要求都提高了,这时候就需要从端到端进行变革。合格的拍摄设备、高效的视频处理流程、够宽的网络传输、舒适的头显设备、精心打造的直播应用,这些都是VR直播的重要环节。
1. VR摄像机
如上图所示,从左到右依次是360度摄像机、180度3D摄像机、360度3D摄像机。360度摄像机的特点是能够覆盖360度角度,把图像采集下来,异构后续处理。180度3D摄像机虽然是180度,牺牲了一半的空间,但是具有3D功能,能够让用户感觉到景深,带来体验上的升级。360度3D摄像机是比较高级的设备,基本上能够全场景包围,还有立体感。
无论是哪一种形式的相机都需要解决几个问题:由于都是多颗镜头、多个传感器共同协作,首先需要有多颗镜头去覆盖想要覆盖的角度,360度或180度,需要做到多个传感器之间同步,同时开始拍摄,才能在后续进行比较好的拼接。此外,还需要色彩、白平衡等各种参数达到一致,方便后续处理。
2. 视频处理
1)首先是拼接:将多镜头拍摄的画面进行亮度色彩调整、对齐、畸变矫正、投影到球面等一系列处理后,合成为一幅完整画面的过程。
拼接的核心在于,分开不同的角度拍了很多照片之间会有重叠,需要找一个合适的位置把它们叠在一起,如何找到这个位置?用的最多方法是基于图像特征控制点的方法,基于图像的灰度变化特征,找到灰度变化差异最小的块叠在一起。
基于图像特征control points控制点
用这种方法完成拼接后,出来的效果整体上看不到接缝,能够找到一个点去匹配,但是如果仔细看还是能够发现,或者存在两个画面有不一致的点,或者接缝处会存在模糊的现象。因为两个镜头从不同的角度拍到的图像是同一个物体的不同侧面,其实是没有办法***拼接到一起的,这个方法不可能做到***的图像输出。很多离线视频之所以看上去找不到任何拼接痕迹,主要是后期进行了大量制作,需要很多人力逐帧做拼接,但在实时里没有机会做。
另外一种拼接方法是基于机器视觉optical flow光流法。大体原理是用光流法,计算两个微小变化画面之间主点对应时,点的对应关系求***解的过程。一旦求出来同一个点在两张画面中不同位置,就可以算出视差和深度,这样就可以借助这个深度做差值,进而生成360度的3D图像。
2)投影变换
目前VR行业中最常用的投影方式是Equirectangular 等距矩形投影。
可以认为是一个球沿着某一条经线撕扯开平铺在一个平面上,在平铺的过程中赤道线上的长度是不变的,两个极点就是两个点,尤其是当纬度越高面积很小,要平铺到球面时就要撕扯开,保留了多个相机之间画面仍然是连续的,虽然进行了拉深,但是仍然连续,所以这方便拍视频时监看,看现在演员的站位好不好,看有没有穿帮,仍然能从图像里看出来,非常方便做后期处理。但是,有一个很大的缺点,就是浪费了很多存储,在极点做了很大的拉扯,那里的图像面积很小,但却花了很多面积存储这部分。比如南极洲实际面积应该是在1400万平方公里,而非洲是4000万平方公里,在这个图上可以明显看出来南极洲比非洲大很多,那些存储都浪费掉了。
Cylindrical Equal-area 圆柱形等面积投影是改进的一种方法。
既然靠近极点那部分的面积实际很小,在投影变换时做小,在y×sinφ,随着离极点越近,存储面积就越小,从这个图里可以看到南极洲面积被压缩得非常小,到极点就形成一条线。简单作一下对比,等距投影和柱形等积投影,用方格子可以明显看出来在靠近极点时处理不同,在接近中心的地方可以从画红框部分对比出来,在底下的示意图也能看出来,柱形等积投影清晰度会比等距投影清晰度高很多,这是在同等尺寸、同等存储空间的限制下。初步计算大约在10度能够提升50%的清晰度。
Cube map 立方体图投影
Cube map广泛用于计算机图形学中,比如unity中的天空盒、反射等应用都使用cubemap的方式来做。
优势是各面没有几何变形,各面像素点均匀分布,投影很方便,当从一个球面投影到Cube map操作很方便,反投影回去也很方便。现在视频编码时限是考虑到运动物体关联关系做,如果没有几何变形,这个关系能够利用得很好,存储压缩可以压到更低。像素均匀分布,在监看时也能够看得比较清楚,因为没有变形,能够清晰地看到表演者或这些物体的真实情况。可以节省25%的像素存储空间。
3)编码
把视频流拼接好,做好投影,在分发出去时要进行编码,否则视频量太大,没有办法做分发。现在一般常用的编码还是H264,一般4K清晰度的VR视频264编码码率大于10M,在编码和清晰度之间要找一个合适的点,理论上做到几兆都可以,一般压到6M,再小容易出现视频不清晰。265在现在很多存储,包括点播视频里已经用起来了,因为现在很多电视盒子都带265硬解功能,现在手机都是旗舰机才带4K265硬解,在很多手机还不支持的情况下,电视盒子已经开始支持了。尽快在直播中用到265,能够节省30%-50%的带宽信号。
3. 网络传输
编码之后的视频要进行网络分发,要解决的问题就是上行和下行。需要注意的问题有:尽量减少上行码率,使用云转码生成多码率视频,根据客户情况动态调整下行码率。
4. 直播应用
云端分发的视频流用户拿到之后,在直播应用里需要做几件事情,一是营造强的沉浸感,这是VR核心。二是强的临场感。三是方便的交互方式。此外还有高性能解码播放、适配各种手机和头显设备、低延迟、秒开、音画一致等。沉浸感的营造方式主要有全空间包围、直播画面大于人眼FOV、等比例还原、Avatar形象提升代入感等。临场感提升主要靠3D技术。语音聊天、送礼物等都是比较方便的交互方式。
5. 头显设备
头显设备中比较热门的是移动头显设备,一种是Cardboard,一种是GeraVR,还有一体机。指标参数方面:分辨率应该达到2K,计算能力需要到骁龙820,因为CPU运算和对视频解码要求比较高,解码能力要4K硬解。系统和交互主要是输入,比较看好Daydream输入,小手柄的设计很好,里面有陀螺仪,还有很多按键设计很不错。其他的要求主要有延迟低、FOV足够大、无畸变、无色散。
VR直播发展趋势
以上介绍的仅仅是VR直播最基础的形式。目前,很多用户在观看的时候想自由走动,从不同角度观看。未来VR直播肯定能够支持这点,使用三维场景真实还原现实环境,并提供更自然直接的交互方式。微软、Replay Technologies的FreeD在这些方面已经有些成果了。甚至像前段时间intel发布的Project Alloy宣传片的那样,与环境发生真实交互。
本文由任福新于2016年8月,在WOT2016移动互联网技术峰会VR技术专场《电商新趋势下的数据分析实践与思考》主题演讲整理而成。WOT2016大数据峰会将于2016年11月25-26日在北京粤财JW万豪酒店召开,届时,数十位大数据领域一线专家、数据技术先行者将齐聚现场,在围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域***实践和最热门的行业应用。了解WOT2016大数据技术峰会更多信息,请登陆大会官网:http://wot.51cto.com/2016bigdata/
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】