不仅仅是大量传感器和摄像头谷歌Starline 3D视频方案解析

2021-12-17 17:39 青亭网

　　在今年Google I/O大会上，谷歌展示了一款3D显示、实时视频压缩、空间音频、计算机视觉、机器学习等技术的3D光场显示方案：Project Starline。该方案的特点是，可显示具有体积和深度的立体视觉，让视频通话体验看起来更加生动，沉浸感更强。

　　近期，谷歌实验室公布了该项目背后的技术细节，包括采用的摄像头、红外传感器等硬件，以及如何在测试过程中，通过精准的视觉模拟来欺骗用户的观感。

　　简单来讲，Starline可以看做是一种专为面对面会议设计的双向3D电话亭，它可以实时扫描使用者的3D形象，然后在另一端的光场显示器上实时呈现立体的视频图像，这种立体视频裸眼可观看，无需额外的头显。此外，声音也以3D空间音频形式呈现，通话者的注视点也会实时追踪和更新，看起来足够真实。

微信图片_20211215184118

　　因此，使用两个Starline方案，便可以实现多人远程3D通话。由于Starline本身也是一个光场显示屏，因此你可以从多个角度查看视频中的通话者，仿佛那个人就在一片玻璃后面那样，你们甚至可以实现对视。

　　据青亭网了解，Starline包含三组立体双摄像头(每组包含一颗1600x1200 RGB摄像头，以及一对1280x1024单色近红外3D摄像头)，分别位于屏幕的下方和上方(左右两侧)，此外还配备四个红外投影仪模组，两个红外聚光灯，另外还有四个定位摄像头(实时追踪眼镜、耳朵和嘴)，四个RGB摄像头(屏幕下方的一个RGB摄像头对准脖子、面部和下巴，上方的摄像头捕捉手势、头部和躯干)。其中，Starline使用两组立体摄像头来捕捉使用者的面部和上半身形象，并实时生成3D模型。

微信图片_20211215184116

　　配备如此多的传感器硬件，Starline的成本也很高，因此目前仅在谷歌内部使用。从5月以来，该方案在谷歌办公室的使用规模越来越广泛，累计测试时间长达数千小时，应用场景包括入职谈话、面试、介绍新同事、探讨业务、一对一协作等等。同时体验者们也给出了积极反馈，尤其看好用Starline实现线上眼神交流的能力，并认为3D通话可以增强参与感，拉近任何人之间的距离。

　　初步测试表明，与传统视频通话相比，Starline改善了远程通话的许多关键部分，比如注意力、记忆力和临场感。一位体验者认为，使用Starline来通话有点像是在咖啡厅聊天，可模拟逼真的面对面交流，通话的时候更容易靠近并关注对方。

　　3D视频支持更多非语言交互

　　经过对比2D视频通话与Starline的效果，谷歌得到以下发现：

　　谷歌测量了数百名员工使用Starline的体验，发现与传统视频通话相比，3D通话的感觉更像是两人在一个空间。其他发现：

　　1)通话者使用更多非语言交流方式，比如手势使用率提升40%，点头频率提升25%，眉毛做表情次数提升50%;

　　2)使用Starline通话后，体验者回忆谈话细节和回忆内容时，记忆力提升近30%;

　　3)在眼球追踪实验中，谷歌发现通话者对于说话人的注意力提升15%，也就是说3D通话有助于提升视觉注意力。

　　关于系统设计

　　谷歌透露，Starline的设计目标是：

　　高分辨率、高帧率、色彩准确的真人大小图像;

　　具备立体视觉和视差，可同时为左右眼分别动态渲染图像，延迟足够低;

　　对称的视频体验，可实现延伸交流;

　　对称的音频体验，音频像是从说话人口中传出;

　　无需眼镜/头显、追踪标记或领口麦克风;

　　用于长时间会议体验感足够舒适。

　　除了复杂的传感器设计外，Starline还采用了一种基于图像的全新几何融合算法，以及声源定位系统、空间去混响技术。

　　谷歌表示：随着远程通讯技术发展，远程通话变得更加保真、同步。目前，人们使用Zoom、Skype、FaceTime等应用进行视频通话，但这种2D形式的视频缺少临场感。未来，具有临场感的通话技术有望拉近人与人之间的关系，为跨国企业、社会团体带来更好的远程通讯体验。不过，具有临场感的通话技术面临三大挑战，即：

　　1)捕捉并渲染远程用户的3D视听图像，营造真假难辨的体验感;

　　2)在具有视网膜分辨率、高视场角、立体视觉和运动时差的显示屏中，实时运行3D视听内容;

　　3)营造临场感，给远程通话者一种在同一空间面对面说话、靠近、互动、对视的感觉。

　　Starline还有效解决了3D视频可能存在的伪影等视觉问题。谷歌表示：就现有技术而言，一方面2D视频已经可以足够清晰，而3D视频通常会出现伪影、视觉辐辏调节冲突等问题，而且分辨率较低、追踪延迟较高，因此3D通话体验难以超越2D视频。

　　而Starline则通过进行涉及的物理布局、照明、3D捕捉、色彩与深度视频压缩、渲染、显示和音频子系统，来营造一种具有临场感的3D通话效果，消除通话者之间的距离感。

微信图片_20211215184129

　　此外，Starline首次采用基于头部追踪的串音消除技术，给人一种声音反复来自于远程通话者嘴部的感觉。也就是说，声音来源可以根据讲话者的位置而移动。显示方面，Starline利用基于图像的几何融合算法，将多种深度和色彩融合渲染。在3D人脸扫描部分，则是采用3D面部特征追踪系统，结合2D面部关键点预测、3D散焦测量以及双层指数滤波，来准确预测3D面部信息，采样率可达120Hz。

　　更多细节

　　在3D视频通话设计上，谷歌从多方面进行考量，他们认为相比于站立交流，坐着谈话更舒适。而且，真人与虚拟图像之间的距离大约1.25米，正好在标准的个人空间和社交距离之间，因此可以适用于各类社交或会议场景。

　　谷歌还表示：没有选择用AR/VR来实现3D通话，部分原因是因为现有的头显技术还存在重量、舒适性等局限，因此决定采用基于屏幕的系统，裸眼就能观看3D。此外，市面上大多数VR头显的角分辨率小于20像素/度，而AR头显的视场角也不够大，所以AR/VR头显无法在保证视场角同时显示高分辨率。

微信图片_20211215184134

　　于是，谷歌采用了一种支持头部追踪的，65英寸8K裸眼3D屏幕，其特点是包含3310万颗RGB像素，刷新率可达60Hz。这个8K显示屏可满足对于显示面积，以及分辨率的要求。另外，其角分辨率越大45像素/度(人眼与像素距离1.25米时)。

微信图片_20211215184124

　　计算单元采用两个带有PCle的联想P920 PC，采用4个NVIDIA显卡(2个Quadro RTX 6000和两个Titan RTX)。视频刷新率达60Hz，面部追踪和近红外立体结构捕捉系统的刷新率则分别为120Hz和180Hz。面部追踪可识别34个面部节点，追踪延迟约33毫秒。

　　尽管如此，谷歌认为Starline在显示和捕捉半透明、轻薄几何形状(头发、眼镜)，或是深度凹陷、快速运动等效果时，可能会在重建深度图中存在错误或漏洞，导致几何图形和纹理渲染错误。未来，还将在这些问题上进一步优化。此外，未来3D视频压缩程度也将进一步提升，降低整体带宽利用。

　　接下来，谷歌希望进一步开发Starline技术，并探索它对于远程通话带来的影响。也许，未来这项技术有望大幅优化远程办公场景，并在企业推广。参考：谷歌

海报生成中...

分享到微博分享到微信一键复制

标题链接已成功复制

不仅仅是大量传感器和摄像头谷歌Starline 3D视频方案解析

最新新闻

热门新闻

焦点

汽车

不仅仅是大量传感器和摄像头 谷歌Starline 3D视频方案解析

相关阅读

最新新闻

热门新闻

焦点

汽车

不仅仅是大量传感器和摄像头谷歌Starline 3D视频方案解析