机器之心报道
编辑:陈萍、杜伟
这个神奇的「聊天室」 , 让你和远在天边的他们近距离碰面 , 互相问候、眼神交流 , 就像真的互相见到一样 。今年 5 月举行的谷歌 I/O 大会上 , 在谷歌园区户外进行的开场 Keynote 上 , 这家公司发布了一系列引人瞩目的全新产品 。
在会上 , 谷歌公布了一个秘密开发多年的黑科技:全息视频聊天技术 Project Starline 。 Project Starline 本质上是一个 3D 视频聊天室 , 旨在取代一对一的 2D 视频电话会议 , 让用户感觉就像坐在真人面前一样 。
通过 Starline , 相互视频的人 , 不需要佩戴任何眼镜或者头盔 , 真实的就像坐在对面聊天一样 , 人物细节饱满 。 我们先来感受一下它的效果:
文章图片
实际上 , 这是由高分辨率传感器、数十个景深扫描传感器以及 65 英寸「光场显示器」重新生成的实时 3D 模型 。 谷歌表示这一项目已开发了数年之久 , 其背后是大量计算机视觉、机器学习、空间音频和数据压缩技术 。 谷歌还为此开发出了一套突破性的光场系统 , 让人无需佩戴眼镜或耳机即可感受到逼真的体积和深度感 。
文章图片
我们可以想象实现这一技术有多难 , 首先你需要让大脑认为有一个真人坐在离你不远的地方;其次图像需要高分辨率并且没有伪影;此外是音频问题 , 因为系统需要让声音听起来是从对面人的嘴里发出来的 , 还有诸如眼神交流等的小问题 。
这项前沿黑科技背后的技术是怎么实现的呢?想必很多人都想了解 , 近日 , 谷歌在一篇论文中公布了 Project Starline 演示背后的技术 。
文章图片
论文地址:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/424ee26722e5863f1ce17890d9499ba9a964d84f.pdf
硬件部分 , Project Starline 系统围绕一个以 60Hz 运行的大型 65 英寸 8K 面板构建 。 围绕它 , 谷歌的工程师布置了三个用于捕获彩色图像和深度数据的「捕获 pod」 。 该系统还包括四个额外的追踪摄像头、四个麦克风、两个扬声器和一个红外投影仪 。 整体来看 , 系统需要捕获来自四个视角的彩色图像以及三个深度图 , 共计七个视频流 。 系统还需要捕获 44.1 kHz 的音频 , 并以 256 Kbps 编码 。
显然 , 所有这些硬件都会产生大量需要传输的数据 , 谷歌表示 , 传输带宽从 30Mbps 到 100Mbps 不等 , 具体取决于用户衣服的纹理细节和手势的大小 。 因此 , 这远远超过标准的 Zoom 通话 。 Project Starline 配备了四块高端 Nvidia 显卡(两块 Quadro RTX 6000 卡和两块 Titan RTX)来对所有这些数据进行编码和解码 。 端到端延迟平均为 105.8 毫秒 。
系统实现
如下图 4 所示 , 谷歌的系统主要有两个组件:一个包含显示器、摄像头、扬声器、麦克风、照明器和计算机的显示单元 , 另一个是包含红外背光并用作 bench seat 的背光单元 。 两个单元都包含向墙壁和天花板倾斜的白色 LED 灯条 , 用于产生柔和的反射照明 。
文章图片
捕获子系统由三个同步立体的 RGBD 捕获 pod 组成:两个在显示器上方 , 一个在显示器下方的「中墙」(middle wall)中 。 更下方的 pod 包括一个额外的彩色相机 , 用于放大拍摄对象的脸部 。 另外 , 四个单色追踪摄像头中的两个在显示器上方 , 其余两个一侧一个 , 用于捕捉眼睛、耳朵和嘴巴的高速广角图像 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
