不仅仅是大量传感器和摄像头 谷歌Starline 3D视频方案解析

2021-12-17 17:39      青亭网


  在今年Google I/O大会上,谷歌展示了一款3D显示、实时视频压缩、空间音频、计算机视觉、机器学习等技术的3D光场显示方案:Project Starline。该方案的特点是,可显示具有体积和深度的立体视觉,让视频通话体验看起来更加生动,沉浸感更强。

  近期,谷歌实验室公布了该项目背后的技术细节,包括采用的摄像头、红外传感器等硬件,以及如何在测试过程中,通过精准的视觉模拟来欺骗用户的观感。

  简单来讲,Starline可以看做是一种专为面对面会议设计的双向3D电话亭,它可以实时扫描使用者的3D形象,然后在另一端的光场显示器上实时呈现立体的视频图像,这种立体视频裸眼可观看,无需额外的头显。此外,声音也以3D空间音频形式呈现,通话者的注视点也会实时追踪和更新,看起来足够真实。

微信图片_20211215184118

  因此,使用两个Starline方案,便可以实现多人远程3D通话。由于Starline本身也是一个光场显示屏,因此你可以从多个角度查看视频中的通话者,仿佛那个人就在一片玻璃后面那样,你们甚至可以实现对视。

  据青亭网了解,Starline包含三组立体双摄像头(每组包含一颗1600x1200 RGB摄像头,以及一对1280x1024单色近红外3D摄像头),分别位于屏幕的下方和上方(左右两侧),此外还配备四个红外投影仪模组,两个红外聚光灯,另外还有四个定位摄像头(实时追踪眼镜、耳朵和嘴),四个RGB摄像头(屏幕下方的一个RGB摄像头对准脖子、面部和下巴,上方的摄像头捕捉手势、头部和躯干)。其中,Starline使用两组立体摄像头来捕捉使用者的面部和上半身形象,并实时生成3D模型。

微信图片_20211215184116

  配备如此多的传感器硬件,Starline的成本也很高,因此目前仅在谷歌内部使用。从5月以来,该方案在谷歌办公室的使用规模越来越广泛,累计测试时间长达数千小时,应用场景包括入职谈话、面试、介绍新同事、探讨业务、一对一协作等等。同时体验者们也给出了积极反馈,尤其看好用Starline实现线上眼神交流的能力,并认为3D通话可以增强参与感,拉近任何人之间的距离。

  初步测试表明,与传统视频通话相比,Starline改善了远程通话的许多关键部分,比如注意力、记忆力和临场感。一位体验者认为,使用Starline来通话有点像是在咖啡厅聊天,可模拟逼真的面对面交流,通话的时候更容易靠近并关注对方。

  3D视频支持更多非语言交互

  经过对比2D视频通话与Starline的效果,谷歌得到以下发现:

  谷歌测量了数百名员工使用Starline的体验,发现与传统视频通话相比,3D通话的感觉更像是两人在一个空间。其他发现:

  1)通话者使用更多非语言交流方式,比如手势使用率提升40%,点头频率提升25%,眉毛做表情次数提升50%;

  2)使用Starline通话后,体验者回忆谈话细节和回忆内容时,记忆力提升近30%;

  3)在眼球追踪实验中,谷歌发现通话者对于说话人的注意力提升15%,也就是说3D通话有助于提升视觉注意力。

  关于系统设计

  谷歌透露,Starline的设计目标是:

  高分辨率、高帧率、色彩准确的真人大小图像;

  具备立体视觉和视差,可同时为左右眼分别动态渲染图像,延迟足够低;

  对称的视频体验,可实现延伸交流;

  对称的音频体验,音频像是从说话人口中传出;

  无需眼镜/头显、追踪标记或领口麦克风;

  用于长时间会议体验感足够舒适。

  除了复杂的传感器设计外,Starline还采用了一种基于图像的全新几何融合算法,以及声源定位系统、空间去混响技术。

  谷歌表示:随着远程通讯技术发展,远程通话变得更加保真、同步。目前,人们使用Zoom、Skype、FaceTime等应用进行视频通话,但这种2D形式的视频缺少临场感。未来,具有临场感的通话技术有望拉近人与人之间的关系,为跨国企业、社会团体带来更好的远程通讯体验。不过,具有临场感的通话技术面临三大挑战,即:

  1)捕捉并渲染远程用户的3D视听图像,营造真假难辨的体验感;

  2)在具有视网膜分辨率、高视场角、立体视觉和运动时差的显示屏中,实时运行3D视听内容;

  3)营造临场感,给远程通话者一种在同一空间面对面说话、靠近、互动、对视的感觉。

  Starline还有效解决了3D视频可能存在的伪影等视觉问题。谷歌表示:就现有技术而言,一方面2D视频已经可以足够清晰,而3D视频通常会出现伪影、视觉辐辏调节冲突等问题,而且分辨率较低、追踪延迟较高,因此3D通话体验难以超越2D视频。

  而Starline则通过进行涉及的物理布局、照明、3D捕捉、色彩与深度视频压缩、渲染、显示和音频子系统,来营造一种具有临场感的3D通话效果,消除通话者之间的距离感。

微信图片_20211215184129

  此外,Starline首次采用基于头部追踪的串音消除技术,给人一种声音反复来自于远程通话者嘴部的感觉。也就是说,声音来源可以根据讲话者的位置而移动。显示方面,Starline利用基于图像的几何融合算法,将多种深度和色彩融合渲染。在3D人脸扫描部分,则是采用3D面部特征追踪系统,结合2D面部关键点预测、3D散焦测量以及双层指数滤波,来准确预测3D面部信息,采样率可达120Hz。

  更多细节

  在3D视频通话设计上,谷歌从多方面进行考量,他们认为相比于站立交流,坐着谈话更舒适。而且,真人与虚拟图像之间的距离大约1.25米,正好在标准的个人空间和社交距离之间,因此可以适用于各类社交或会议场景。

  谷歌还表示:没有选择用AR/VR来实现3D通话,部分原因是因为现有的头显技术还存在重量、舒适性等局限,因此决定采用基于屏幕的系统,裸眼就能观看3D。此外,市面上大多数VR头显的角分辨率小于20像素/度,而AR头显的视场角也不够大,所以AR/VR头显无法在保证视场角同时显示高分辨率。

微信图片_20211215184134

  于是,谷歌采用了一种支持头部追踪的,65英寸8K裸眼3D屏幕,其特点是包含3310万颗RGB像素,刷新率可达60Hz。这个8K显示屏可满足对于显示面积,以及分辨率的要求。另外,其角分辨率越大45像素/度(人眼与像素距离1.25米时)。

微信图片_20211215184124

  计算单元采用两个带有PCle的联想P920 PC,采用4个NVIDIA显卡(2个Quadro RTX 6000和两个Titan RTX)。视频刷新率达60Hz,面部追踪和近红外立体结构捕捉系统的刷新率则分别为120Hz和180Hz。面部追踪可识别34个面部节点,追踪延迟约33毫秒。

  尽管如此,谷歌认为Starline在显示和捕捉半透明、轻薄几何形状(头发、眼镜),或是深度凹陷、快速运动等效果时,可能会在重建深度图中存在错误或漏洞,导致几何图形和纹理渲染错误。未来,还将在这些问题上进一步优化。此外,未来3D视频压缩程度也将进一步提升,降低整体带宽利用。

  接下来,谷歌希望进一步开发Starline技术,并探索它对于远程通话带来的影响。也许,未来这项技术有望大幅优化远程办公场景,并在企业推广。参考:谷歌

相关阅读