造假AI又进化!只要一张照片,说话唱歌视频自动生成
副问题[/!--empirenews.page--]
本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 曾造出无数“小视频”、恶搞过多位明星的知名换脸神器Deepfakes,这下被降维冲击了。 这个新AI不再是改动视频了,而是直接把一张静态的照片酿成视频。 像这样,一张施瓦辛格: ![]() 开始措辞了: ![]() 饶舌歌手Tupac Shakur: ![]() 也能张嘴了: ![]() 只要有一张静态的人脸照片,甭管是谁,在这个新AI的驱动下,恣意配上一段语音,就能张嘴说出来。 虽然,除了措辞之外,唱歌也毫无题目,好比让糊口在一百多年前的“俄罗斯妖僧”拉斯普京唱碧昂丝的Halo。 固然声音和性别不太匹配,可是画面和歌曲组合起来有种莫名的鬼畜感呢。 你也别觉得这个AI只能给照片对口型,它还可以让这个措辞的人拥有喜怒哀乐各类情感。 开心的: ![]() 惆怅的: ![]() 炸毛的: ![]() 这眉眼,这眼光,这脸部肌肉,得挽救几多“面瘫”演员啊! 这项研究来自帝国理工学院和三星,研究者们还筹备了一套包括24个真假难辨的视频的图灵测试,我们简朴测了一下,只能猜对一半阁下。 也就是说,这些AI天生的“真假美猴王”,足以蒙哄人类了。 对比此前的斯坦福输入恣意文本改变视频人物口型的研究,以及三星的措辞换脸,实现难度可以说高了许多。 不少网友闻之色变: ![]()
连科技媒体The Verge都评价说: ![]()
也有人认为,等技能遍及之后会给做坏事的人袒护的来由: ![]()
多辨别器布局 怎样用一张照片做出连贯视频?研究职员以为,这必要时序天生反抗收集(Temporal GAN)来资助。 逻辑上不难领略,假如想让天生的假视频传神,画面上至少得有两点身分必需满意: 一是人脸图像必需高质量,二是必要共同发言内容,和谐嘴唇、眉毛等面部五官的位置。也不消动用伟大的面部捕获技能,此刻,只用呆板进修的要领,就能自动合成人脸。 这中间的法门,就在于时序天生反抗收集,也就是Temporal GAN,此前在2018年提出过这个研究。 这是一个端对端的语音驱动的面部动画合成模子,通过静止图像和一个语音天生人脸视频。 在Temporal GAN中有两个辨别器,一个为帧辨别器,确保天生的图像清楚具体,另一个是序列辨别器,认真相应听到的声音并发生对应的面部行为,但结果并不那么优秀。 ![]() △ Temporal GAN模子表示图 论文End-to-End Speech-Driven Facial Animation with Temporal GANs 地点: https://arxiv.org/abs/1805.09313 在这项事变,研究职员借用这种时序天生反抗收集,行使两个时刻辨别器,对天生的视频举办视听对应,来天生传神的面部举措。 同时还勉励模子进一步自发发生新的面部心情,好比眨眼等举措。 以是,最新版基于语音的人脸合成模子来了。模子由时刻天生器和3个辨别器组成,布局如下: ![]() 这是一个有条不紊的分工布局,天生器认真吸取单个图像和音频信号作为输入,并将其支解为0.2秒的重叠帧,每个音频帧必需以视频帧为中心。 这个天生器由内容编码器(Content Encoder),一个辨别编码器(Identity Encoder)、一个帧解码器(Frame Decoder)和声音解码器(Noise Generator)构成,差异模块组合成一个可嵌入模块,通过解码收集转换成帧。 ![]() 这个体系行使了多个辨别器来捕获天然视频的差异方面,各部门各司其职。 帧辨别器(Frame Discriminator)是一个6层的卷积神经收集,来抉择一帧为真照旧假,同时实现对措辞人面部的高质量视频重建。 序列辨别器(Sequence Discriminator)确保各个帧能形成一个连贯的视频,表现天然行为。 同步辨别器(Synchronization Discriminator)增强了对视听同步的要求,抉择画面和音频应该怎样同步。它行使了两种编码器获取音频和视频的嵌入信息,并基于欧式间隔给出判定。 同步辨别器的布局如下: ![]() 就是这样,无需造价奋发的面部捕获技能,只需这样一个收集,就能将一张照片+一段音频组合成流通连贯的视频了。 30多篇CVPR的作者 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |