不会跳舞吗?AI让你动起来

作者: 分类: 提供信息 发布于:2020-06-14 792次浏览 45条评论

不會跳舞嗎?AI讓你動起來

看着别人恣意耍帅尬舞,或是优雅慢舞,你是否只能望着自己僵硬的肢体,徒呼负负?美国柏克莱大学的研究团队利用对抗式生成网路,让本身不太会跳舞的人也能在影片中翩翩起舞。

建构骨架模型

首先,为了取得「体态」与「骨架」等资料,研究团队要求受试者们穿上贴身衣物,依照指令或随意动作,拍摄长达20分钟的影片,透过常见的姿势侦测(pose detection)模组,将人的四肢、躯干、手指及脸部表情在平面上标上座标,一个看似火柴人的骨架便合成了。

讲到这里,读者或许已经注意到,所谓的「骨架」其实就是一种自编码模型(auto-encoder)在潜在空间(latent space)的表示:所输入的影像透过编码器投影到一个低维度空间,再由解码器将这种低维向量重建回原先影像。若自编码模型训练得好,那幺只要取得解码器,我们便可由较少的资讯(骨架),重建出影像(体态)这种高维度的资讯了。

所以,只要透过一个「固定」的姿势侦测模组,把人的动作或舞步简化为一帧一帧影格中的火柴人模型,那幺我们便可以「骨架」为转换依据,将舞蹈示範影片中的人物置换为任何人。

不会跳舞吗?AI让你动起来

图一、输入影像与姿势侦测结果(来源:C. Chan et al, 2018.)

生成式对抗网路的影像重建技术

原理看似简单,但仍要分成两个部份来考量。首先,重建的品质是否足够?其次,则是「骨架」能否成功对应到正确的「肢体动作」。前者在理论上难度不高,因为只要拥有足够的骨架-体态配对资料,一般而言,便可轻易藉由卷积神经网路(convolutional neural network ,CNN)重建影像。相较之下,后者则需要用到较为複杂的「生成式对抗网路」(generative adversarial network ,GAN)。

近年在各大AI研讨会上,GAN的讨论度始终居高不下。其利用两个模型─生成网路(Generator,G)与辨别网路(Discriminator,D)─互相切磋学习,在影像重建或三维建模上,都获得不错的成果。举例来说,假设今天想要利用G网路产生一个动漫人物图像[2]。则需準备一张真正的动漫图片,以及透过G网路生成的图片,两者一同送到D网路作判别。因为G网路一开始对动漫图片一无所知,D网路或可轻易判定G网路所生成的图片为伪,并退回G网路要求生成更贴近实际动漫影像的图片。如此多次反覆训练下,随D网路的鉴别力越强,G网路生成的能力也会更厉害,最终我们就能利用G网路产生图片了。

柏克莱团队将前述的CNN定义为G网路,专责从骨架资讯生成测试者的影像。之后再将「骨架-真实影像」、「骨架-重建影像」两种配对送到后续的D网路作鉴别。反覆为之,G网路不仅能产生良好的影像品质,且能将骨架对应到正确的动作。最后,只要将示範影片每一帧影格透过同一个姿势侦测模组产生骨架,之后送到抽取出来的G网路生成受试者样貌,如此一来,一位舞者就此诞生了。

不会跳舞吗?AI让你动起来

图二、训练流程以及生成流程(来源:C. Chan et al, 2018.)

影像优化

然而,如同许多GAN常遇到的困境,以如此低维度的资讯重建影像时,还是遇到了解析度不够的问题。所幸团队辅以预训练的VGG网路进行感知损失(perceptual loss)的定量[3],相对于传统方法,所定义的损失函数更能缩小重建影像和真实影像间的感知落差。与此同时,他们也用到了这几年NVIDIA与柏克莱合作开发的「pix2pixHD架构」[4],以多尺度D网路为G网路生成的影像作评断,大幅提升在细微特徵,以至广域特徵上的影像解析度。

此外,因示範影片的骨架是逐帧投影的,且姿势辨识模组有其限制及不稳定性,导致上下帧间的动作常有严重的抖动情形,使得重建出的影片看起来十分不自然。所以在设计G网路和D网路时,团队也动用了一些巧思:要求机器在生成下一张帧影像人物骨架时,必须考量前一帧影格的资讯。如此一来,所使用的资讯就不仅是骨架,更包含了前一帧影像的资讯,当图片串成影片时,动作更为连贯。

伴随的道德疑虑

好莱坞电影中长相奇特的外星生物或怪物,通常由演员穿上嵌有定位装置的服装,再经过重重CG特效与3D建模后,才变成我们所看到的样子,这样的手法往往所费不赀。这项研究却能透过普通的2D影片就能完成动作的转移,而且重建的影像十分地流畅且自然。甚至是窗户上的倒影也可顾及,其效果相当吸引人。

随着GAN研究的进步,AI所产生图片或影片的解析度也越来越高,且更贴近现实,但也引起了这种技术可能被滥用的疑虑。如同近两年来冒出的新兴名词─Deepfake,便是指利用AI影像合成技术伪造名人影片,来製造假新闻或针对个人的舆论攻击。

不会跳舞吗?AI让你动起来

图三、Face2Face论文结果,使用者可以让特定人物做出任意表情(来源:J. Thies et al, 2016.)

编译来源

Jon Fingas. “AI-altered video makes it look like you can dance.” Engadget. 2018.

参考资料

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)

<<上一篇: