堪比科幻大片!优酷特效广告、互动视频技术大揭秘
作者|阿里文娱高级算法专家方如责编 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)大家都看过科幻电影吧,像《头号玩家》、《美国队长》、《银河护...
作者| 阿里文娱高级算法专家方如
责编 | 屠敏
头图 | CSDN 下载自东方 IC
出品 | CSDN(ID:CSDNnews)
大家都看过科幻电影吧,像《头号玩家》、《美国队长》、《银河护卫队》,这些科幻电影中都出现过AR/VR的镜头。以《头号玩家》为例,主角来到博物馆,能够实时的、多角度地去浏览资料,这里就用到了volumetric video技术,它是一种VR技术,就是在被摄物周围放一圈摄像头,采集的视频经过合成加工就可以无缝地切换观看了。与电影中的拍摄特技不同,随着5G和AI的加速落地,在视频生产和播放环节,越来越多的融入AR、VR的相关技术。可以说今天的科幻电影是明天的科学事实。
那么优酷在这一领域是如何实践的呢?且看阿里文娱高级算法专家方如在GMICLive 2020 智慧文娱技术专场中的分享,主要从四方面展开:
-
一是XR与视频的结合策略;
-
二是XR-Video技术特点;
-
三是XR-Video智能创意平台及其应用;
-
四是XR-Video未来展望。
XR与视频的结合策略
什么是XR?XR包括VR、AR和MR。
VR是Virtual Reality虚拟现实,是计算机模拟出的世界,给人一种沉浸感。AR是Augmented Reality,将虚拟物体放在真实世界中,但与真实环境不能交互。MR是Mixed Reality混合现实,将虚拟现实和增强现实进行融合。在MR世界中,真实实体和数据实体是同时存在,可实时交互。
XR系统的核心要素是世界感知、世界编辑和交互。
1)世界感知是对物理世界的一个逆向工程,将物理世界数字化;
2)世界编辑是一个正向工程,打造虚拟世界。将物理世界和虚拟世界进行融合,就打造出了一个增强世界;
3)交互包括用户和世界之间,用户和用户之间的交互。可以看出,XR是一个极其庞大的系统。
优酷在不断探索,将XR理念和手段与视频结合形成XR-Video技术。它具备以下特点:1)虚拟信息与视频富有创意的植入;1)时空多纬度的合成;3)实时的交互性。
XR-Video技术特点
一是虚拟内容与视频富有创意的植入。
1、植入形式
虚拟内容的植入形式是非常丰富多彩的,我们创造了高光时刻、悦享时刻、移花接木、无中生有、动态混合现实等十几种的酷炫特效。比较典型的移花接木,就是找到物体的平面后替换原平面中的内容;动态混合现实,是在视频中植入运动的虚拟内容。
2、植入内容
植入的内容从哪里来呢?有两个来源,一是从素材和特效库里提取;二是在原视频上利用AI算法智能的生成特效。
将视频中的人物图像分割出来,进行复刻,生成人物复刻特效,如第一个视频所示。通过人物的检测分割形成轮廓,粒子绕着轮廓进行环绕,形成了高光时刻的特效,如第二个视频所示。我们与阿里体育合作的子弹时间,通过CV算法智能识别出球员、弹跳高度等等,这些数据生动形象地在6DoF视频中展现出来,右下视频所示。
3、内容呈现方式:云端渲染
支撑特效制作的是大千云端渲染引擎,它支持自动化和规模化。以植入广告为例,从创意中心下单,经过特效引擎制作和投放,实现了近自动化,保证了特效广告上线的及时性。与传统特效制作方法相比,我们有两大优势,一是传统的影视包装技术比较匮乏,难以与CV算法结合进行创新,而我们采用开放式CG方案,将物理计算、粒子系统、光影渲染等CG技术进行插件式配置,灵活地与CV算法结合创新;二是传统方法特效制作周期长,人工介入流程多,动态性差,我们采用了实时渲染和双流捕捉技术,大大提升制作效率。
除了自动化和规模化,植入渲染的品质和细节是我们的关注点。以移花接木植入渲染效果优化演进为例,美学自然的融合,实现特效与原场景的自然的XR植入,是我们追求的目标。视频中的待植入区域通常是存在运动、形变的。如下视频所示相框区域跟随镜头移动,且因透视原因存在形变。
若简单地采用Mesh来复现点位结构信息,在植入时会出现纹理的闪动和边缘的锯齿,因此我们优化了纹理平滑和边缘的抗锯齿工作,拉通抗锯齿和浮点插值渲染,使植入初步达标。在这基础上,下一步工作是把植入位的图像风格迁移到待植入的素材图像,使得植入后的素材区域和原始视频的整体图像风格一致。为此我们引入深度学习方法结合Wavelet Transforms,实现了植入后的素材自然,无违和感。
USDF 处理前后对比
上图的差异可能较小,视频放大以后,尤其到大屏播放能看到清晰的毛刺。通过距离、UV梯度对边缘进行柔化、对纹理信息进行微调,解决毛刺等问题,让整体植入区域更柔和自然。在采用了USDF着色算法,经过风格迁移处理后,《长安十二时辰》海报非常自然地融入到视频中,后续进行了多虚拟相机分层,Blend二次处理,提升叠加的易用性,得到更佳效果。
二是时空多维度。
“时”是对视频进行打点,具体是通过对物体和场景等的识别,理解视频内容,确定植入时间,目前已实现帧级别。在“时”的基础上,我们加入了“空”的感知和理解,确定植入的空间位置。以典型的移花接木为例,需要平面检测和平面追踪能力。
显式平面检测包括对海报和平面等检测。采用了两步显式平面检测方式。通过对边缘检测、直线拟合和轮廓提取等手段生产出初步的平面数据,辅助人工标注微调。这些数据再通过深度学习进行训练,进一步提升准召率。
隐式平面检测包括墙面、桌面、楼面等。通过隐式平面检测,进一步扩大植入场景。采用传统的方法SFM三维重建,从视频序列中计算相机的pose恢复稀疏点云,再通过CMVS/PMVS重建稠密三维点云拟合平面。
但是传统方法在视频中有运动物体,当特征点较少时,效果非常不好。在这种情况下,推出了深度学习方案。使用CNN估计图像深度信息,重建3D坐标。通过图像超像素分割获取cluster处理,判断共面进行隐式平面(墙面等)检测。
平面追踪算法是移花接木的核心技术之一,分为三大类:基于区域、KCF、基于特征点。我们采用的是基于特征点的方法,利用深度学习进行特征点和描述子的自适应联合学习。传统特征点有SIFT、SURF、KAZE、AKAZE、BRISK 和ORB等,Learning-based方法,例如:D2-Net、R2D2、LF-Net、SuperPoint和UnSuperPoint发展迅速。基于深度学习的特征点提取是今后大趋势,它也是SLAM、image-based localization等应用的基础能力。下图是DOG和UnSuperPoint特征点提取效果对比。经过对比,深度学习方案从reliability 和 repeatability方面优于传统方案。我们采用UnSuperPoint方案进行特征点的提取和描述子的计算。
平面追踪的四个改进方向有:(1)利用深度学习进行特征点和描述子的自适应联合学习(2)可靠的特征点提取后,引入图模型和图匹配,(3)结合H矩阵平滑提升单应性矩阵的准确性。(4)融合多种网络。采用的二阶段高精度平面追踪,结合attention机制,对人和物体遮挡引入的噪声像素进行屏蔽,实现了在运动且遮挡情况下的稳定追踪,且优于AE追踪的结果,参看如下对比视频。
曲面追踪可以进一步扩大植入的应用场景。从特殊点计算、特征点匹配和筛选,实现三角面片网格化。在此基础上添加植入元素转换成UV 贴图,然后进行特效渲染。扭曲运动物体表面的追踪后进行文字、Logo或动画等植入。下面段视频显示了跟踪和植入的效果,植入生动自然。
三是实时交互。
交互从简单的人面对屏幕观看视频发展到将2D/3D信息融合于周围的空间与对象中,不再与视频内容脱离,而是和人们的当前视频自然而然地成为一体。交互的动作除了以往的按键或者触屏,可以扩展到头部、眼部、表情、手势和语音等,从位置扩展到原有视频某个空间。分享一下实践的三种交互方式。
“点哪儿活哪儿”
实际上就是一个3D模型交互。例如在视频广告中,我们可以在出现保时捷品牌汽车的点位进行预埋点,通过特效触发召唤出汽车模型,用户可以与汽车模型进行三维触控互动,模型可动态展现品牌汽车的各个角度以及开关门、开关灯等各种行车效果,这种3D互动式广告可以大幅增强广告的品牌感知度和认可度。
“转哪儿看哪儿”
转动手机进行交互。例如AR捉猫猫是类似PokemonGo的游戏,是LBS+AR技术的一种成功运用。游戏活动期间总PV十几亿,日均UV 三千多万,支持星巴克、KFC、苏宁易购等60多款品牌猫,是那年最火的双11预热互动活动。在这个游戏中,主要解决的一个问题是,通过手机的加速度计、陀螺仪,磁力计和GPS信息,实时计算出3D模型在屏幕上的显示位置,给用户一种该3D模型(例如星巴克猫)就在其真实世界周围的某个方位上的“错觉”。这个“错觉”的视线方向通常表示为一个旋转矩阵。这种转动手机的玩法,还可运用到观赏体育比赛和综艺节目等场景中。
“看哪儿买哪儿”
在VR/AR 中通过空间定位,人置身其中,参与其中的互动,犹如身临其境一般。“看哪儿买哪儿”实际上就是基于视线的交互,它是一种更自然的人机交互方式。视频展示了沉浸式购物全景视频,用VR手机盒子体验的购物应用,带你穿越到世界各地的商场购物,遇到喜欢的商品,用户盯住触发按钮就可下单购买。
智能创意平台及其应用
XR-Video创意平台意在打造生产和消费的生态系统。从获取原材料开始,然后进行各种筛选。原材料包括有多媒体和3D模型。筛选方式有视频内容、弹幕、字幕和背景音等的理解。通过深度估计、平面检测和追踪、图像和视频分割等方法进行预处理,然后进行人体、物体和场景的3D重建,以显式和隐式的方式叠加特效,进行时空编辑,最后通过多维渲染、双流编码的方法进行合成并生成一个特效视频。生成的特效视频一条路是返给创意智能服务中心。创意智能服务中心担任与外部应用对接的角色,通过它服务于广告、自由视点视频、互动剧、APP页互动等应用。另一条路是返回给原材料库,形成闭环实现良性的循环。
大千XR-Video智能创意平台框图
应用之一:大千植入特效广告
传统内生广告有压屏条和创意中插。压屏条样式呆板,俗称“牛皮癣”;创意中插要前期制作,成本高;所以我们创造了特效广告形式。曼秀雷敦、良品铺子、OPPO和哈弗等多家广告主上线尝试了这种新型的广告形式。
大千创意广告,替代了枯燥的硬浮层广告,创造出全新的广告观感;是一种不打扰观影的软植入,解决了会员用户和广告客户间的利益矛盾。其涉及的技术点有三维环境感知、HDR光照估计、特效3G渲染引擎,多维度多模态视频解构打点以及严格的帧同步。
严格的帧同步是在保证播放原视频的同时,还要保证动态渲染广告的视觉效果,支持个性化更新。在千元机上实现严格帧同步挑战挺大。帧同步双流渲染技术经过了多次迭代,直接叠加带透明通道的视频会存在兼容性问题,因此我们提出了滤色Key方案(性能消耗较大)、WebP渲染方案(内存占用较大),逐步演变到了双流掩码方案(性能、资源占用情况均较佳),最后通过pts基准合流渲染的方法达到了严格的帧同步,至此特效广告与视频资源达到了解耦+同步的两全其美效果。
应用之二:6DoF 视频的大千AR植入
6DoF 视频的大千AR植入的实现方式是在体育场馆里布置一圈摄像头,摄像头采集RGB和深度图。图中显示了同一时刻在不同角度拍摄的深度图。通过三维感知计算,准实时和实时生成更多虚拟视点的图像及其相机位姿,叠加3D动效,实现数据内容可视化的植入。
在6DoF视频中植入,一个重要功能是热区图。通过三维重建方法进行三维场地标定,利用深度图去篮筐遮挡,结合人体姿态估计与分割去人体遮挡,最后实现了根据虚拟试点相机姿态进行热力图的渲染生成。
6DoF视频AR植入的另一个功能是铭牌组件。需要解决的问题是有球员识别和跟踪、篮球识别、手和脚识别和定位以及人体的三维建模。通过3D建模去计算高度等等。越来越多智能生产的数据通过这种方法可视化,而且还可以动态地植入广告。
对未来的展望
XR的研发方向,就是更沉浸、更准确、更有趣的互动式植入。
第一个方向,基于2D与3D结合的三维感知技术。具体来讲,利用三维点云语义分割建立人与物、物与物的相对关系;利用人物遮罩与3D景深结合,处理遮挡问题和场景切换问题;还有利用空间位置结合手势等识别的进行3D交互。
第二个方向是光照估计。左图为原始图,右图为光照估计后的植入效果图。可以看出,光照估计后植入物体的阴影是非常自然的。我们采用基于深度学习“场景光照特征”识别算法,智能感知视频画面中的光源方向及照度分布,保证虚实场景视效的一致性。
我们一直坚信 XR 是改变人机交互的终极形态。但由于硬件发展还存在一定的问题,XR眼镜的续航、重量和效果等需进一步提升。这段硬件改进的时间,正是积累AI算法和XR 应用软件技术的时机。AI是XR应用的基石,通过AI、XR与教育、培训和游戏等结合在实践中摸索,等硬件成熟后定能实现厚积薄发。
三维空间感知和理解是XR技术的核心之一。传统的SLAM技术关于测量、几何的方法虽然已经比较成熟,但面临着发展的瓶颈。如果要大发展的话,需要结合多传感器和深度学习的方法。深度学习是工具,SLAM是应用的关键技术。除了深度学习外,在SLAM技术中加入仿照人类对环境的感知能力和特殊的先验约束等手段提升定位的速度和精度。有了准确的空间位置感知,与动作捕捉和语音交互等结合,实现自然的人机交互。
AI是人机交互和人物景理解的基础,而5G、边缘计算强有力支撑了XR所需要的大数据传输,他们结合起来催生了XR的发展。了解视频编解码和边缘计算等技术原理,关注这些技术的发展趋势,对设计和实施XR应用系统会有很大帮助。
XR-Video还在探索中,它会继续在创意广告、互动视频和视频制作等领域上施展拳脚。
更多精彩推荐
☞再见 Python,Hello Julia!
☞GitHub 超 32,000 Star!火了近十年的阿里开源项目 Apache Dubbo 云原生实践
☞你现在从事的程序员还有多久会消失?牛津大学研究员帮你算了算
☞一次对语音技术的彻底批判
☞后端程序员必备:书写高质量SQL的30条建议
☞到底是哪些人在玩链游?| 《区块链游戏玩家研究报告》
你点的每个“在看”,我都认真当成了喜欢
更多推荐
所有评论(0)