近日,Oculus 公司首席科学家 Michael Abrash 出席了第三届环球大挑战峰会(Global Grand Challenges Summit)。这场大会赞助者众多,其中就包括美国国家工程学院,英国皇家工程学院和中国工程院。在此次大会上,Abrash 和与会者分享了他对 VR 的一些深层次看法。下面就是 Abrash 的演讲稿,绝对的一刀未剪。本文由雷锋网编译自 Oculus 官方博客。

Michael Abrash

很高兴能来到这里参加这场 VR 盛会,它确实是一次名副其实的大挑战,大会的持续时间,技术的深度与广度都前所未有。此外,它还对我们的生活方式产生了潜在影响。

VR 的历史可以追溯到 1968 年 Ivan Sutherland 的达摩克利斯之剑(头戴式电脑)。不过半个世纪之后,我们才真正开始走上探寻 VR 真身的道路。当我们谈论起 VR 的未来时,才真正开始意识到它的潜在影响,而这一过程的起点就是人类体验的本质。

我们体验到的现实其实建立在我们脑海中,其基础是我们基因中自带的无数假设和出生以来的各种经验。当然,还有一些我们感官接收到的零散数据。

所有的现实都是虚拟的。

这句话是不是足够震撼?如果你此前从来没想过这个命题,恐怕震撼感就没那么明显。所以在这里我想再说一遍:其实我们体验的所谓现实都建立在我们脑海中,其基础是那些高度不完整的数据。通常,这些数据能与现实世界紧密吻合,但它并不是现实的字面反应,而是世界最可能状态的一个推理而已。

下面我们就通过几个案例来认识自己,其实我们对现实的看法只不过是最好的猜测罢了。

看到桌子下面的白色方砖和桌子旁边的黑色方砖吗?

下面,我们遮住画中的其他方砖。

事实上,它们的灰度完全相同。

不过,如果把它放在阴影下,方砖从视觉上看就会变成白色,而放在亮光下则会转为黑色。光强度是一种基于上下文的推理,你的视觉系统会自动完成推理,因此你看到的是白色和黑色而不是灰色。

下面我们举第二个例子。请你们仔细看这张图,图中的两个桌面哪个更宽?哪个又更长呢?

看出来了吗?

现在揭晓答案,事实上这两个桌面的尺寸一模一样。与上面的光强度概念一样,桌面的大小也是一种基于文本的推理。

下面的几个例子娱乐性更强,同时也蕴含了几个与现实对不上的更高级推理。

显然,“眼见并不为实”。

一些窗户上的线索暗示出一个并不存在的观点,因此你的视觉系统认为窗户向后旋转了一半。为了证明这个观点的正确性,你会觉得吸管直接旋转通过了窗户,但这样的情景其实根本没发生。

下面我们来看另一个例子。

这次我们的视觉系统又被欺骗了。

我们的感知系统做了一个相当合理的推理,视频中的面部看起来好像是凸起的。

事实上我们又被骗了。

这就是我会说大家对现实的看法只不过是最好的猜测的原因。让我们再看一个视频:

显然,视频中的女主角在说“bar,bar,bar。”现在我们来看第二个视频:

在这里,我们能很清楚的听到她说“far,far,far。”但真实情况是,她在两个视频中说的都是“bar”,而不是“far”。我们听到她说“far”,是因为视觉系统的暗示。

听起来是不是有些迷惑?那么我们换种方式来看。这次音轨中出现的词还是“bar”,但我们会采用分屏显示,一边的视频会显示“far”的口型,另一边则为“bar”。视频播放时请在两个片段间转动目光,体会那种听觉变化的过程。

在我看来,我们很难体验到所谓的麦格克效应(即人类的听觉会过多的受到视觉的影响,从而产生误听的现象),也很难相信你体验到的现实只是一种推断,更别说是所谓现实世界的文字反映了。当你听到“far”时,傅立叶变换(Fourier Transform,一种分析信号的方法)不会给你传达相关声音信息,“far”这个词根本没有冲击到你的耳膜,但你还是觉得自己听到了。

对 VR 来说,这一点非常重要:无论来源是什么,我们体验到的现实都是基于推断输入的,在这里我们的思维做了最后决定。因此,如果 VR 能提供正确的推理输入,那么我们就能体验到任何想体验的感觉,而这种体验会变的极其逼真。

我第一次想到这一概念是我准备体验虚拟跌落测试时。当时,我就感觉自己的膝盖僵住了,一种无形的力量在推着我后腿。我的意识告诉我这都是假的,但却忍不住感觉自己要掉下去了。如果把这个原理运用的 VR 中,绝对潜力无限。

我认为一个最能引起大家共鸣的是一个虚拟的工作空间,在这里我们拥有全套的虚拟屏幕和全息画面,工作空间的风格还能随时切换。同时,其他人还能随时进入工作空间,而我也可以去他们的工作空间串门。这样,我的生产力肯定会大幅提高,而工作也会变的相当有趣,那种感觉就像第一次用上 PC。

事实上,这里我提到 PC 是为了进行直接类比。40 多年前 PC 的诞生是人本计算领域的首次重大飞跃。我相信 VR 会引领第二次飞跃。未来,我们与数字世界的交互不再通过平面屏幕了,只要我们需要,可以随着住在数字空间中。

想实现这一目标我们得做些什么?

上面就是我对 VR 的期待,不过想实现这一目标我们需要大量技术革新。

由于 VR 要驱动我们的感知系统,因此我们要从感官开始,包括视觉、听觉、触觉、嗅觉和平衡感。在我看来,在短期内后三种感觉 VR 还“控制”不了,但视觉、听觉和触觉绝对没问题。

在视觉上,我们需要让 VR 的视场与我们眼睛的视场相匹配,同时提升分辨率、清晰度和动态范围,此外景深也要控制好。

在听觉上我们则需要合适的空间化设计(感觉中的声音来源),完整的空间传播(声音如何在虚拟空间运动)和综合能力。

触觉的实现还是相当有挑战性的。手是最好的触觉载体,也是我们与这个世界交流的主要方式。我们现在能做的只是借助一些震动和阻力来模拟触觉体验。不过未来某一天,人类可能会带上某种手套或外骨骼,直接与世界接触。

除了把虚拟信息注入感知系统,VR 还需要机器感知,这种能力让它能感知、重构并理解真实世界。有了它我们戴着头盔才能安全移动,因为家里的家具等会自动进入虚拟世界。当然,要能把人也带入虚拟世界就更好了,这种面对面交流的新型场景让我们能在世界的任何角落与远方的朋友相互交流。

我相信,要想让 VR 更加普及,这一功能的引入相当重要,因为人才是这世界最有趣的事物。不过,我们太熟悉人这个物种了,因此虚拟人类模拟的稍微有点瑕疵我们都能看出来。

最后我想说,VR 是我们开发的最厉害的全面感知技术,因此关键是揭开人类感知的谜题。简单来说,VR 的关键不是各种技术,而是让这些技术能与人类感知系统协调运转,这样才能有真实的体验。

通盘考虑,VR 需要提升的地方非常多,因此也留下了巨大的研究空间,它不但覆盖了人类的感知,还事关感应和重构等领域。想要对这些空间进行探索,我们需要世界级的研究人员。同时,多部门合作也相当重要,VR 可是个综合性的工作。

就拿刚刚我提到的虚拟工作空间来说,在这里你必须有能灵巧的活动“双手”,同时现有头戴设备主要专注的是 2 米外的事物,如果缩短到 1 米,可能就会出现虚焦和佩戴舒适度问题,但 1 米才是工作时最合适的距离。

简单来说,如果我们无法解决这个问题,在虚拟环境中工作就是个伪命题。同样的,声音的空间化也很重要,如果它的来源方向出了问题,你在 VR 世界中也会“跳戏”。我们想实现的事情还很多,比如更高的屏幕分辨率,在虚拟世界重构家中的一切甚至虚拟的人,而这都是我们没能解决的问题,因此研究人员在各个领域都有很多工作要做。

下面我们来共同认识 VR 面临的 3 大重要挑战,就从屏幕说起吧。

VR 显示之对焦

眼下,VR 头戴设备的屏幕系统只不过是屏幕和放大镜的结合体。当你的目光穿过这些玻璃片,看到的只是单一焦距图像。

但问题是,我们应该把焦对在哪呢?

上图右边我们将焦点放在了无限远,也就是窗外,因此得到的图像更接近真实,与左图非常类似。

在第二张图中,右边变化了焦点,焦点成了最近的植物,于是画面就变成了模糊一片。在这里,设备依然对焦在远处,但你的眼睛却对焦在了最近的植物上。

因此,我们需要找到更好的方法来处理对焦的问题。

今天,我没时间来清楚的解释原理了,但至少我能大致讲解几种过去几十年里探究出的潜在解决方案。

现在请你把自己带入一个简单的 3D 游戏场景。

从眼科的角度来看,整个游戏画面覆盖的屈光度为 0-4,为了让画面变清晰,如今的 VR 头戴设备屈光度通常为 0.5。显然,在这样的情况下,距离较近的物体会变模糊。

有人认为,解决这一问题的最佳方法是增加新的焦平面、采取同时显示的方法或快速连续的显示。

感知科学家认为,在屈光度只有 4 的情况下,你根本无法创造足够的焦平面让所有东西都完美聚焦。

不过这还好,我们可以逐渐适应这些焦平面。

理光的研究人员最近就做了尝试,如果你选对了自适应光学仪器,就可以移除附近的焦平面,不过焦平面之间的物体会变得模糊。对这项研究进行一段时间的思考后,Oculus 的研究人员认为与其增加更多的焦平面,不如让每个焦平面能力更强。因此他们拿掉了一些焦平面并搞弯了剩下的。

因此如果我们能用上更复杂的自适应光学仪器,某个焦平面或某几个焦平面就能完整覆盖场景中的物体。

现在我们先来看个模拟。

这张图中,初看远景中的物体都对上焦了,但前景却是虚的。这时我们可以前后景来回看,你就会发现前景也慢慢的对上焦了。

因此这一想法还是有自己优点的。

当然,在模拟中成功的几率会高一些,因此我们直接做了一台测试机。

上图是相机搭配空间灯光调变器记录下来的测试机显示图片。当相机放进测试机时,图像的反差会变小。

我们发现,首先对上焦的是较远的物体,随后近处的物体也能顺利对焦。

当然,这一过程也可以反过来,因此即使没有眼部追踪我们也能顺利完成对焦。

上图则是现有定焦屏幕(左)与自适应对焦屏幕(右)的对比,右边的新技术确实效果显著。

瞳孔的问题

我想说的第二个重大挑战是眼部追踪,这是 VR 行业的一项关键技术,同时也是许多计算光学技术的基础。

现有的眼部追踪技术主要基于追踪瞳孔和角膜上的闪光。

视频展示了瞳孔追踪是如何工作的,但瞳孔的大小和形状都会发生变化。

角膜上的闪光可以弥补瞳孔追踪的不足,但它也会带来一些问题,比如我们如何将合适的照明系统和摄像头放进本已经相当庞大的头戴设备中呢?同时,人的脸型各个不同,我们怎么保证追踪结果 100% 准确呢?

此外,眼睛也不是什么标准化模具“生产”出来的器官。

真正的问题在于,现在的眼部追踪技术会根据瞳孔的位置和角膜上闪烁的光来推断光子在视网膜上的位置。事实上,直接追踪视网膜的变化才是最佳解决方案,但这需要一套全新的眼部追踪技术。

把“真人”送进虚拟空间

第三大挑战是虚拟人物,它是真人在虚拟世界的替身。刚刚我也说了,这是人们广泛接受 VR 的最重要原因。

想要把“真人”送进虚拟空间,我们至少需要 4 种不同的追踪技术,而这些技术现在都不够成熟。第一种技术是眼部追踪,第二种则是手部追踪。

下面的视频展示的是完美的手部追踪:

由于人的手自由度高达 25 且存在许多自遮挡问题,因此现在的手部追踪系统相当复杂。

脸部是人体表现力最强的部分,它的变化可以非常细微,因此追踪起来也最困难,而面部追踪是第 3 种追踪技术。

上面的视频展示了实时面部追踪的最新技术,虽然有了不少突破,但离成熟还很远。

第 4 种追踪技术是骨骼人体追踪,虽然还有许多工作要做,但它已经可以投入实战了,下一步的主要工作是对相机系统进行改造,让它用起来更方便。

虚拟人物后面的技术给我们带来了不少有趣的问题,但其中最令人感兴趣的是“到底什么才是让虚拟人物令人信服的关键因素。”

这一问题的答案恐怕还要到认知科学和社交心理学中寻找,而起初我们必须搜寻大量的数据,下面的视频就展示了 Yaser Sheikh 的一部分研究成果。

虽然看起来很酷,但这段视频中 1 秒的画面就需要花 2 小时来渲染,因此它离实际应用还有很长时间。

VR 的未来

以上这些只是 VR 面临的一部分挑战而已,想把它们一个个解决掉恐怕得花很长时间。VR 给我们准备了巨大的探索空间,我们需要将更多的精力投入其中。想要穷尽其中奥秘,恐怕还得经历数十年的不断创新。

从纯粹意义上来讲,VR 也是绝对的大挑战。显然,它非常困难,需要多个领域的合作。不过,这并不能完全概括它。从宏观来看,VR 是 70 多年计算机革命和一个世纪以来信息技术发展的最高峰。未来,我们肯定能拥有与数字世界交互的全新界面,而类似全带宽和生物处理技术会陆续加入进来。

VR 潜力巨大,它能拓宽人类体验的广度和深度。如果它能最终成功,绝对会成为我们这个时代最重要的技术。