寻求更好的3D
一个典型的基于镜头的照片编码了每个光波的亮度——一张照片可以真实地再现场景的颜色,但它最终生成的是一个平面图像。
相反,全息图编码每个光波的亮度和相位。该组合提供了一个勇敢的视差和深度描绘。所以,虽然莫奈的“水百合”的照片可以突出绘画的颜色腭,全息图可以将工作带到生命中,渲染每个刷子行程的独特3D纹理。但尽管他们的现实主义,全息图是制造和分享的挑战。
全息图最早出现于20世纪中期,是用光学方法记录的。这需要将激光束分开,其中一半用来照亮物体,另一半用来作为光波相位的参考。这个参考产生了全息图独特的深度感。产生的图像是静态的,所以他们不能捕捉运动。而且它们都是硬拷贝,很难复制和分享。
通过模拟光学装置,计算机生成的全息术避开了这些挑战。但这个过程可能是一个计算上的苦差事。“因为场景中的每个点都有不同的深度,你不能对所有的点都应用相同的操作,”史说。“这大大增加了复杂性。”指挥一个集群的超级计算机运行这些基于物理的模拟,可能需要几秒钟或几分钟的时间才能得到一个单一的全息图像。此外,现有的算法不能以逼真的精度模拟遮挡。因此,史教授的团队采取了一种不同的方法:让计算机自己教授物理。
他们使用深度学习来加速计算机生成全息图,从而实现实时全息图生成。该团队设计了一个卷积神经网络-一种处理技术,使用一系列可训练的张量来大致模拟人类处理视觉信息的方式。训练神经网络通常需要一个大的、高质量的数据集,而这在以前的3D全息图中是不存在的。
该团队建立了一个由4000对计算机生成的图像组成的定制数据库。每一对组合都将一张图片(包括每个像素的颜色和深度信息)与其对应的全息图相匹配。为了在新的数据库中创建全息图,研究人员使用了形状和颜色复杂多变的场景,从背景到前景的像素深度均匀分布,并使用了一套新的基于物理的计算来处理遮挡。这种方法产生了逼真的训练数据。接下来,算法开始工作。
通过从每个图像对中学习,张量网络通过从而调整了自己的计算的参数,连续增强其创建全息图的能力。完全优化的网络运行的数量级比基于物理的计算更快。效率让球队本身惊讶。
“我们对它的表现有多好,”Matusik说。在Mere MilliseConds中,张测仪全息术可以通过深度信息从图像制成全息图 - 由典型的计算机生成的图像提供,可以从多轨设置或激光雷达传感器计算(两者都在一些新的标准智能手机).这一进步为实时3D全息摄影铺平了道路。而且,紧凑张量网络只需要不到1 MB的内存。他说:“考虑到最新款手机的容量,这是微不足道的。”
这项研究“表明真正的3D全息显示只需要中等程度的计算需求就可以实现,”Joel Kollin说,他是微软的光学架构师,没有参与这项研究。他补充说,“这篇论文显示了与之前的作品相比,图像质量的显著改善”,这将“为观众增加现实主义和舒适感”。
柯林还暗示,像这样的全息显示器甚至可以根据观众的眼科处方定制。“全息显示可以纠正眼睛的像差。这使得显示图像比用户通过隐形眼镜或眼镜看到的图像更清晰成为可能,因为隐形眼镜只能纠正像焦和散光这样的低阶像差。”
“一个相当大的飞跃”
实时3D全息术将增强一系列系统,从VR到3D打印。新利18官方该团队称,新系统可以帮助浸入VR观众在更现实的风景中,同时消除长期VR使用的眼压和其他副作用。可以轻松地部署该技术在显示光波阶段的显示器上。目前,最实惠的消费者级显示器仅调制亮度,但如果广泛采用,相位调制显示的成本会降低。
研究人员说,三维全息术还可以提高体积3D打印的发展。新利18官方该技术可以比传统的层次层3D打印更快,更精确地证明,因为体积3D打印允许同时投影整个3D图案。新利18官方其他应用包括显微镜,医学数据的可视化,以及具有独特光学性质的表面的设计。
“这可以完全改变人们对全息术的态度是相当大的飞跃,”Matusik说。“我们觉得神经网络出生为这项任务。”
来源:麻省理工学院