菜单总览
新闻

扩展现实研究中心在沉浸式 Web 线上研讨会上做分享

  • 2021.08.18
  • 新闻
近日,深圳市人工智能与机器人研究院(AIRS)协办 W3C Web 中文兴趣组 · 沉浸式 Web 线上研讨会。

        近日,深圳市人工智能与机器人研究院(AIRS)协办 W3C Web 中文兴趣组 · 沉浸式 Web 线上研讨会。AIRS 扩展现实研究中心在研讨会上就“AI 驱动下的 XR 内容生成”主题进行分享,介绍了中心最新的研究进展,并与参会者围绕 WebXR、XR 内容生成等话题进行广泛交流与探讨。

        以下为扩展现实研究中心助理工程师刘聪的演讲整理。

刘聪:大家好!我们是深圳市人工智能与机器人研究院(AIRS),也是深圳市十大基础研究机构之一。我们属于 AIRS 的扩展现实研究中心,中心主任是田第鸿博士。本次我想分享的题目是“AI 驱动下的 XR 内容生成”。

扩展现实(XR)研究中心主要在“AI 驱动可视内容生成”和“计算成像”等方向上开展研究工作。今天我想分享的主题是“AI 驱动下的 XR 内容生成”。大家都知道在整个 XR 行业里面,三维视觉内容生成是一个非常重要的核心,但是目前大家在做这件事的时候,都需要花费很大的精力。比如说用高精度的三维扫描设备实现三维内容获取,再比如说需要一些建模师花大量时间和精力创建这些内容。基于这些局限,我们希望通过 AI 和沉浸式 Web 技术结合搭建一个扩展现实内容生成平台,在这个平台里面把我们 XR 的内容快速生成,快速发布出来。

我下面放的这个图,是云+端架构的图。在云端主要负责 AI 计算以及沉浸式计算,在终端主要负责交互,通过 AI 与沉浸式 web 的结合实现一个快速的 XR 内容创作平台的开发。同时在国家层面上,推动三维图形学的发展也是今年两会在虚拟现实和增强现实方向上关注的一个重点。

展开讲这个议题,我想从以下几个方面介绍:一是基于语义辅助形式的三维内容生成。比如说我们讲语义辅助的时候,左边放了一个例子,我们通过单张图像就能快速生成出一个高精度的鸟儿的模型,在有一定信息缺失的情况下,通过语义辅助的方式让整个模型生成,这也是我们前段时间发的一篇论文研究工作。这个工作中间也包含一些细节,比如提到了一些创新点,包括 FID 的优化等其他的一系列优化方向。

我们可以看到这个实验结果,左边的第一列是我们输入的图像数据,右边的这些实验结果是不同视角渲染出来的模型图像,可以看出有一定的三维可视效果,能够实现快速的生成。这是以鸟儿为例讲语义辅助生成的方法。

在三维内容里面还有一个更重要,同时大家也可能关注更多的是虚拟人体(数字人),所以我们在语义辅助方法上面探索的另外一个案例就是希望通过视觉图像的方案去驱动虚拟人体实现快速的生成。这是我们做的一些例子,比如说这上面的8张图像就能快速生成一个高精度的虚拟人体模型,未来能够用于三维打印、虚拟会议、虚拟主播等应用场景。PPT 上展示的是我们目前获得的一些效果,这个“虚拟人体”的研究工作也是持续在开展,待会我也会介绍如何驱动这些人物在视频驱动下运动,以及它能够跟一些其他 AI 算法结合起来,让它能智能地去理解,跟人进行交互的例子。

除此之外,如果把它放到一个更极端的案例上面。比如,我们能不能通过1张图像就能快速生成——通过输入单张的一个人的图片去生成一个高精度的 3D 人体,这个跟前面 3D 的虚拟人体相比存在一定的缺陷,但是也能实现快速的生成。

我们在人体方面还做了其他尝试,比如我们放在一个半身人像上面,当你输入一张 2D 的人脸图像,我们能生成一个 3D 的 Avatar,这样的例子经常在远程通讯场景中会被提到。在这个基础上,我们又增加了一个路线,就是看能不能把它放到一个更加抽象的概念,比如说针对手绘的一些图像、图形,AI 是否也能驱动手绘的图形图像生成一个 2D 的 Avatar,然后再通过 2D 的 Avatar 去驱动生成一个 3D 的 Avatar,这也是属于我们在单视角重建上面做的一个主要探索。

介绍完第一部分,也就是 AI 驱动基于语义辅助的部分。第二部分我想讲的是我们探索的基于语义识别和搜索的一套体系和系统,比如说有一个客户端首先通过摄像头获取一些图像数据并将图像传到云端,然后这个时候系统能够调取我们在云端的 AI 服务,通过 AI 服务会进行一系列的识别、搜索甚至生成一系列的内容,最后将生成的 XR 内容返回给终端进行 XR 的可视。

举个例子,比如说你拍到的这只鸟儿在我 3D 模型库里面有了,它会返回结果,在客户端能够可视化出来,最后在 XR 终端上面进行交互。

当然还有第二条路,如果你的内容在系统里面从来没有出现,它会自动匹配系统里面出现的 XR 的图像数据,或者是一些语义文本,用这些语义文本去驱动生成一个 XR 的内容。再举一个例子,比如说之前的那个单视角生成人体的案例,一张拍摄人体的图像在云端调取了 AI 生成人体的一个服务,通过 AI 内容实时生成系统把人体生成出来,最后展示在我们 XR 的内容交互平台上面去,实现在不同 XR 终端上进行交互。

另一个例子是我们在深圳市龙岗区做的一个优质文化项目,这是在深圳的音乐厅里面做的一个例子。当我拍摄这些乐器图案的时候,它能从云端快速识别,知道它是大提琴或者古筝这样的乐器,然后再返回出我们已经建好的一个 XR 的内容,这些内容就包括一些可交互的手段,比如说我能通过一些简单的交互,在 AR 模式下点击屏幕就能让这些大提琴演奏出一些乐曲。

刚刚讲到了两个方面,一个是基于视觉识别和搜索的 XR 内容生成,另一个是基于一些语义驱动下的 XR 内容生成,这两部分内容讲的都是一些静态的内容,下面我想讲的内容是我们在动态的 XR 内容上面做的一些工作,这个主要是放在人体的场景里面探索。比如第一个例子,当我们有了大量的人体图像数据之后,我们能够生成一系列高精度的三维的虚拟人体,通过这些虚拟人体我们能够通过 AI 的方式去绑定它的骨骼,能够让他自动生成属于自己的骨骼。最后得到的结果就是,AI 能够让这个人体模型实现自适应绑骨,最终生成一个高精度的绑骨后的人体模型(AI绑骨)。再举另一个例子,从视频里面同样可以去提取出它的一些视频的动作信息以及一些语义,让这些语义去生成一套动作信息系统(动作捕捉与迁移)。

得到了这个模型和动作信息,就能够将绑定骨骼的模型与动作绑定在一起,自然而然就生成了一个带动画的人体模型,这个就是我们放在动态驱动里面做的一些事情。除了上面两个例子之外,我们也做了一些搭建骨骼模型库,以及动作库等类似的工作。

总结起来放到一个动态驱动的框架里面,一个静态模型生成之后,能够通过 AI 绑定骨骼以及动作迁移,从视频里面提取一些动作信息,提取语义的方式,让静态的内容动起来,在 XR 的交互终端上面可视化出来,这其实就是我们在动态内容生成上面做的一些工作。

(下图)右边这两个图是动作信息库和动画模型库,这两个图是我们在这个过程中做的另外一件事情,我们希望用户使用的过程中,能在我们的平台上面选择一些动作信息库和动画模型库,去制定他们自定义的一些 XR 的内容。

在这里还有两个视频,一个是实时的 2D 动态驱动,也就是我通过捕捉 2D 的人脸、人像、人体的动作姿态信息,让 2D 的一些动漫人物产生动画。第二个是放在 XR 的框架里面,在一个三维空间里面去实时捕捉驱动。左边是我们的一个模特在跳舞,右边是一个虚拟偶像模型,系统能够实时提取舞蹈的动画并且反馈到虚拟偶像模型上面,实现实时驱动。

我刚刚主要提到了三种 XR 内容的生成方式,这些生成方式我们是想结合沉浸式 Web 这样一个技术去搭建一套扩展现实内容生成的平台,把这样一些内容生成、3D 内容生成以及动态内容生成的技术用在沉浸式 Web 这样一个框架里面,搭建一个快速编辑创作 XR 内容的 Web 平台,通过这样的平台去快速地进行编辑创作,发布用户在不同垂直领域的 XR 内容。

很多的工业需求就是它的使用培训流程,以下面这个咖啡机为例,(下图)左边这个图是一个咖啡机,咖啡机的使用常常是人们在生活中头疼的问题,上面这个图是通过 XR 终端去体验我们编辑好的 XR 内容,把一步步操作用扩展现实终端,用 XR 内容平台去编辑发布出来。最后的发布形式还是通过一个网页的形式,大家都能够很轻松地进入去获取。

右边举的这个例子其实是 HTML 的一个网页,它上面会有一些咖啡机使用的教程以及一些动画,都是一步一步去进行实现与提示,最后能通过 XR 终端方式去可视化出来。

如果把 Webrtc 远程通讯这种方案引入到里面的话,我们还有其他相关的一些案例,比如平行操作——通过佩戴 VR 终端,实现对远程机器人的操纵,能让机器人进行一些远程作业。还有跟这个类似的,比如远程协助和多人协作,通过这样一些网络通讯接口能轻松实现多机互联以及多机通讯。

总体来说,我们基于 AI 生成技术搭建了一套扩展现实内容生成的 Web 平台,左边也是我们平台的网址和网页。同时,我们也是 W3C 的会员单位,目前正要成为 W3C 粤港澳大湾区代表处,未来也会与 W3C 做一些 WebXR 等方向上的合作与探索,我们希望跟产业界的各位同仁一起汇集扩展现实沉浸式网络的相关力量,推动 WebXR 沉浸式网络核心技术的发展,一起来制定一些行业化标准。

我的介绍大致是这样,大家对我们的工作感兴趣的话也欢迎与我保持联系。

Q&A

邵志兢:我想问一下关于单照片转三维模型,我们之前也看过这个方向,会不会对姿态和身形都会有一些限制?比如说人是不是一定要摆一个 pose 出来,如果女生是长发披肩,头发会不会被识别成衣服?或者说穿了裙子,裙子会被劈开变成两条腿。

刘聪:你提的是一个很好的问题,你提到了两点,第一个是关于它的姿态问题。我们现在做的这个通过单视角的图像去生成人体,用的是隐式函数的技术路线去做,所以不同于一些基于 Template 的方案对姿态限制较大。第二个就是你提到它的头发和衣服,这也是在我们 AI 做生成里面的难点和痛点,是因为它变化幅度和变化范围相对来说还是比较大的,最新一些 AI 的论文以及它的工作方向也都是如何用 AI 的方式去学习它的衣服。在这里面我们可以看到,这些基本的轮廓以及基本的衣服,它是能够去学习到的,能够预测到的。但是一些细节的,比如手指以及手指更细节的一些轮廓,在单视角的重建上面还是存在一定的局限。所以在这一点上,我们也是希望能够通过加一些其他的方案进行优化,能让单视角生成的方案更加丰富,让它最后呈现出一些更好的结果。

薛富侨(W3C):AI 驱动的 XR 内容生成,目前有没有什么商业的使用案例或者产业标准化需求?

刘聪:事实上,在这个过程中我们提到两点,一个是通过 AI 方式生成这些内容,在这些内容评价体系里面,目前来看这些 AI 的论文以及 AI 这一类型计算机图形学、图像学,对 XR 内容评价标准以及评价体系,暂时还处于一个非常初期阶段,也并不是很完善,这是我们希望推动去做的。另外一个就是,因为它的三维数据生成出来毕竟还是一个比较大的数据,像前面几位讲者也提到它的传输以及它的时延,能不能通过 5G 方式实现更快速地去加载以及渲染这些内容,无论是视频数据也好,还是三维模型、动画数据也好,能不能在这上面做一些工作,这也是我们希望跟产业界各位一起去做的工作。

除此之外,你刚才提到的第二点就是商业化的方向,我们现在有跟一些三维打印以及传统的领域,包括教育培训领域去做一些相关的探索与尝试。包括刚刚提到的,我们主推的还是一个编辑和创作的平台,跟一些高等院校做一些尝试,让他们的老师通过这样的方式快速地创建教学培训场景的 XR 内容,发布到各个终端上面去,用于培训教学。

王子韬:华为在做无障碍相关的场景下,会有相应的一些诉求,关于 AI 辅助实物,这部分刚才您也介绍到了,类似于交响乐团的时候可以帮助识别乐器。相应的这部分不一定完全是对三维内容,或者视觉内容上有多高的要求,在一些视觉障碍人士情况下,他可能会通过手机,通过拍照的这种方式来请 AI 帮助他来识别现在他想要认识的这个内容,通过其他的方式,比如说音频或者触觉也好、声音也好,能给他介绍他想要感知的内容。所以这部分我感觉也是一个潜在的机会,后面也希望咱们这边可以就 W3C 无障碍相关的内容考虑潜在的应用场景。

刘聪:好啊,谢谢。你刚才提到的这一个也是我们希望做到的下一步的工作,刚才都是从图像图形层面驱动 XR 内容的生成。但比如多模态的一些内容,像语音、文本等这一类型的数据能不能作为驱动 XR 内容生成的方式以及方法,我认为这有很大的探索空间,所以我们也很期待跟华为无障碍团队的老师一起合作探讨这件事情。

王子韬:群聊里中国移动许老师提了一个问题,请问您演示远程协助项目是通过网页实现的吗?有没有对客户端设备有甚么要求?

刘聪:这套远程协助系统是在终端上实现的,通过终端交互,能够把一些远程传输的镜头或者空间标注,这样一些三维数据能够传输到用户的扩展现实终端里面。在这个上面,现在做的尝试还没有放到网页的服务里面,因为之前试了,可能是因为时延等一些原因,它的效果并不是很好,所以我们还是考虑用终端在做。

黄亚坤:远程协助的时候,这个主要是基于 AR 计算在终端上面,即使我们不基于 Web,我们基于移动设备的话,好像算力还是不太够,第一个是做实时有功耗,还有时延,就这两个问题目前来讲做这种生成挺难的吧?你这种协同的话,如果往端侧走的话,功耗是比较大的一个问题。用一会儿,手机会发烫的,这个问题我不知道你们这边有没有比较好的解决方案。如果我采用一些压缩网去做,精度又不行,或者说对于生成的东西又存在一个障碍。我不清楚目前这一块有没有比较好的解决方案?

刘聪:在端侧计算的时候,如果我们考虑生成,在端侧做生成的话其实是远远不够的。这里面最大的问题还是在于网络以及时延,未来在 5G 环境里面,因为在这里面我提到所有的 AI 生成的内容和服务都是放在云端去做计算的,在端侧它只需要实时渲染出来,端侧做的一些感知交互,比如像左边这个图里面,箭头可以传输出来,这个没有问题,但是复杂的三维模型以及数据确实会出现发烫的情况,这个我们之前也有测试过。所以我们在这个案例里面,暂时也没有把生成的一些内容放到这个系统里面去做。只是希望未来能够把这些东西打通,能够结合起来。

当然 AIRS 有其他的中心也在做相关的工作,他们主要是做一些网络的优化,通过 AI 的方式让这些 Web 的内容自适应地去呈现,自适应地渲染,自适应地得到更好的结果,他们也在做这样的工作,未来我们也希望跟他们一起探讨,往这样的方向进行一些探索。

* 本文由 W3C Web 中文兴趣组整理(https://www.w3.org/2021/07/chinese-ig-xr/minutes.html#t06