加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

发布时间:2019-06-24 06:48:07 所属栏目:建站 来源:郭一璞 白安妮
导读:本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 曾造出无数小视频、恶搞过多位明星的知名换脸神器Deepfakes,这下被降维冲击了。 这个新AI不再是改动视频了,而是直接把一张静态的照片酿成视频。 像这样,一张施瓦辛格: 开始措辞了
副问题[/!--empirenews.page--]

本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。

曾造出无数“小视频”、恶搞过多位明星的知名换脸神器Deepfakes,这下被降维冲击了。

这个新AI不再是改动视频了,而是直接把一张静态的照片酿成视频。

像这样,一张施瓦辛格:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

开始措辞了:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

饶舌歌手Tupac Shakur:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

也能张嘴了:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

只要有一张静态的人脸照片,甭管是谁,在这个新AI的驱动下,恣意配上一段语音,就能张嘴说出来。

虽然,除了措辞之外,唱歌也毫无题目,好比让糊口在一百多年前的“俄罗斯妖僧”拉斯普京唱碧昂丝的Halo。

固然声音和性别不太匹配,可是画面和歌曲组合起来有种莫名的鬼畜感呢。

你也别觉得这个AI只能给照片对口型,它还可以让这个措辞的人拥有喜怒哀乐各类情感。

开心的:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

惆怅的:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

炸毛的:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

这眉眼,这眼光,这脸部肌肉,得挽救几多“面瘫”演员啊!

这项研究来自帝国理工学院和三星,研究者们还筹备了一套包括24个真假难辨的视频的图灵测试,我们简朴测了一下,只能猜对一半阁下。

也就是说,这些AI天生的“真假美猴王”,足以蒙哄人类了。

对比此前的斯坦福输入恣意文本改变视频人物口型的研究,以及三星的措辞换脸,实现难度可以说高了许多。

不少网友闻之色变:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

此刻是拉斯普京唱Halo,往后会不会整出川普向墨西哥选战啊,感受怕怕的。

连科技媒体The Verge都评价说:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

这样的研究总让人们忧虑,怕它会被用在谎言和政治宣传上,其实是让美国立法者们伤思维。虽然,你也可以嗣魅这种在政治规模的威胁没那么严峻,但deepfakes已经确确实实危险了一些人,尤其是女性,在未经赞成的环境下被用来制造了又尴尬又羞耻的色情视频。

也有人认为,等技能遍及之后会给做坏事的人袒护的来由:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

等这技能成熟了,川普真的干坏事的小视频出来,他就可以轻描淡写的嗣魅这是假视频。

呵呵,真棒,往后暴徒们被捏到把柄的时辰,就都能说“没有的事啦,是假视频。”

多辨别器布局

怎样用一张照片做出连贯视频?研究职员以为,这必要时序天生反抗收集(Temporal GAN)来资助。

逻辑上不难领略,假如想让天生的假视频传神,画面上至少得有两点身分必需满意:

一是人脸图像必需高质量,二是必要共同发言内容,和谐嘴唇、眉毛等面部五官的位置。也不消动用伟大的面部捕获技能,此刻,只用呆板进修的要领,就能自动合成人脸。

这中间的法门,就在于时序天生反抗收集,也就是Temporal GAN,此前在2018年提出过这个研究。

这是一个端对端的语音驱动的面部动画合成模子,通过静止图像和一个语音天生人脸视频。

在Temporal GAN中有两个辨别器,一个为帧辨别器,确保天生的图像清楚具体,另一个是序列辨别器,认真相应听到的声音并发生对应的面部行为,但结果并不那么优秀。

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

△ Temporal GAN模子表示图

论文End-to-End Speech-Driven Facial Animation with Temporal GANs 地点:

https://arxiv.org/abs/1805.09313

在这项事变,研究职员借用这种时序天生反抗收集,行使两个时刻辨别器,对天生的视频举办视听对应,来天生传神的面部举措。

同时还勉励模子进一步自发发生新的面部心情,好比眨眼等举措。

以是,最新版基于语音的人脸合成模子来了。模子由时刻天生器和3个辨别器组成,布局如下:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

这是一个有条不紊的分工布局,天生器认真吸取单个图像和音频信号作为输入,并将其支解为0.2秒的重叠帧,每个音频帧必需以视频帧为中心。

这个天生器由内容编码器(Content Encoder),一个辨别编码器(Identity Encoder)、一个帧解码器(Frame Decoder)和声音解码器(Noise Generator)构成,差异模块组合成一个可嵌入模块,通过解码收集转换成帧。

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

这个体系行使了多个辨别器来捕获天然视频的差异方面,各部门各司其职。

帧辨别器(Frame Discriminator)是一个6层的卷积神经收集,来抉择一帧为真照旧假,同时实现对措辞人面部的高质量视频重建。

序列辨别器(Sequence Discriminator)确保各个帧能形成一个连贯的视频,表现天然行为。

同步辨别器(Synchronization Discriminator)增强了对视听同步的要求,抉择画面和音频应该怎样同步。它行使了两种编码器获取音频和视频的嵌入信息,并基于欧式间隔给出判定。

同步辨别器的布局如下:

造假AI又进化!只要一张照片,措辞唱歌视频自动天生

就是这样,无需造价奋发的面部捕获技能,只需这样一个收集,就能将一张照片+一段音频组合成流通连贯的视频了。

30多篇CVPR的作者

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读