2D视频到3D人脸:VR面临的一个关键挑战

智能手机输入现在可以生成逼真的光照和阴影的3D人脸,从任何角度观看

3分钟读取
正确的灯光、阴影和反射会让VR观众更加沉浸其中
不同的阴影和消融图作为参考照明配置的面部渲染由俄罗斯斯科尔科沃科学技术研究所的研究人员在莫斯科。
说明:Skoltech

创造尽可能接近真实生活的虚拟体验是虚拟现实(VR)的终极目标之一,因为公司和研究人员都在寻找准确模仿人的面部表情和肢体动作的方法。但是,如果面部的光线和阴影——众所周知,要想精确地模拟出来很困难——都是错误的,表情和手势就不重要了。只是看起来不对。那么如何在虚拟人脸上模拟光、影和反射呢?

这是最近开发的创造过程背后的激励问题赏心悦目的3D头像以及上半身的一部分,由俄罗斯的研究人员提供斯科尔科沃科学技术学院(Skoltech)。

“通常情况下,当你给某人拍照并添加照明时,图像看起来不自然,因为人身上的照明和环境的照明不匹配,”Skoltech计算机视觉小组负责人、副教授维克多·莱姆皮茨基(Victor Lempitsky)说。“这种不匹配的照明成了一个问题。它会影响真实感,让人无法看到一个真实的人。这就是为什么我们决定研究如何让这些肖像令人愉快。”

该团队的过程包括拍摄一个站着不动的人的轨道,并定期发出闪光灯。然后生成一个点云,一个叫做基于神经点的图形照顾好三维重建.换句话说,a深度神经网络处理图像并根据房间照明预测与照明相关的属性,如反照率和阴影。然后,这些地图有助于从不同的视点和在不同的照明条件下重新点燃图像。例如,使用这种技术,可以通过点光源或来自各个方向的环境光源,或来自大窗口的定向光源来照亮和阴影3D面部。

“基于神经点的图形的主要吸引力在于它的鲁棒性和对各种几何图形的适用性,”莱姆皮茨基说。多边形网格仍然是传统计算机图形中最常见的3D对象的几何表示——网格得到了很好的支持,通常允许快速渲染。但基于网格的方法在薄物体或直径小的物体上往往失败,比如发丝、手指或小块布。基于点的图形也有类似的问题:它们在面部生成的光和阴影仍然可能有小孔,因为网格不够密集。

“将基于点的图形与神经渲染相结合有助于克服这些挑战,神经网络决定如何在渲染过程中局部连接点,”Lempitsky说。

与其他专注于单一视角、需要特定照明或需要使用激光雷达仪器或灯光舞台等复杂设备的方法不同,Skoltech设计的过程只需要一部智能手机。“不是每个人都有机会在工作室里使用高端设备,也不是每个人都有摄影测量等复杂技术的知识,”Skoltech的博士生、该研究的主要作者阿尔特姆·塞瓦斯托波尔斯基(Artem Sevastopolsky)说。“我们的动机之一是让数据采集变得更简单。”

这些逼真的肖像转向恐怖谷同时也为未来埋下了种子deepfake恶作剧。“我们的工作符合恐怖谷理论的概念,但我们相当准确地模拟了人脸。这样一来,我们制作的3D肖像就很难吓到任何人了。”塞瓦斯托波尔斯基说。“这一合成面部图像的领域确实与深度造假有联系,但我不认为我们的过程可以用于此,因为它不能模拟嘴唇运动或面部表情。”

为了进一步推进他们的研究,塞瓦斯托波尔斯基和Skoltech的计算机视觉小组正在研究将他们的过程应用于全身重新照明。除了创造更逼真的VR体验外,该团队的流程还可以用于物体或环境的3D重建。

“例如,这对文化遗产保护很重要,”Skoltech科学与工程组高级数据分析副教授、负责人叶夫根尼·伯纳耶夫(Evgeny Burnaev)说。“我们可以使用更简单的设备,而不是昂贵而复杂的扫描仪来快速捕获物体。相应的3D模型可以放在网站上,吸引更多的人去某个历史地点,或者让能力有限的人或无法访问该地点的人虚拟地观看和体验它。”

对话(0)

从winzip到猫动图,雅各布·齐夫的算法为几十年的压缩提供了动力

无损压缩先驱获得了2021年IEEE荣誉勋章

11分钟读取
垂直
图片:Rami Shlush
黄色的

无损数据压缩看起来有点像魔术。它的兄弟,有损压缩,更容易理解。有损算法用于将音乐转换为流行的MP3格式,并将数字图像转换为标准的JPEG文件。他们通过有选择性地删除部分来做到这一点,利用科学家们对我们看和听的方式的了解,来确定哪些部分是我们最不会漏掉的。但没有人能证明,最终生成的文件是原始文件的完美复制品。

无损数据压缩就不是这样了。位确实消失了,使得数据文件大大变小,从而更容易存储和传输。重要的区别是,比特在命令下重新出现。这就像魔术师表演中的兔子一样,只要魔杖一挥,它们就会从帽子里消失,然后又出现。

继续阅读↓ 显示更少
Baidu