造假AI又进化！只要一张照片，措辞唱歌视频自动天生

发布时间：2019-06-24 06:48:07 所属栏目：建站来源：郭一璞白安妮

导读：本文经AI新媒体量子位（公家号ID:QbitAI）授权转载，转载请接洽出处。曾造出无数小视频、恶搞过多位明星的知名换脸神器Deepfakes，这下被降维冲击了。这个新AI不再是改动视频了，而是直接把一张静态的照片酿成视频。像这样，一张施瓦辛格：开始措辞了

副问题[/!--empirenews.page--]

本文经AI新媒体量子位（公家号ID:QbitAI）授权转载，转载请接洽出处。

曾造出无数“小视频”、恶搞过多位明星的知名换脸神器Deepfakes，这下被降维冲击了。

这个新AI不再是改动视频了，而是直接把一张静态的照片酿成视频。

像这样，一张施瓦辛格：

开始措辞了：

饶舌歌手Tupac Shakur：

也能张嘴了：

只要有一张静态的人脸照片，甭管是谁，在这个新AI的驱动下，恣意配上一段语音，就能张嘴说出来。

虽然，除了措辞之外，唱歌也毫无题目，好比让糊口在一百多年前的“俄罗斯妖僧”拉斯普京唱碧昂丝的Halo。

固然声音和性别不太匹配，可是画面和歌曲组合起来有种莫名的鬼畜感呢。

你也别觉得这个AI只能给照片对口型，它还可以让这个措辞的人拥有喜怒哀乐各类情感。

开心的：

惆怅的：

炸毛的：

这眉眼，这眼光，这脸部肌肉，得挽救几多“面瘫”演员啊！

这项研究来自帝国理工学院和三星，研究者们还筹备了一套包括24个真假难辨的视频的图灵测试，我们简朴测了一下，只能猜对一半阁下。

也就是说，这些AI天生的“真假美猴王”，足以蒙哄人类了。

对比此前的斯坦福输入恣意文本改变视频人物口型的研究，以及三星的措辞换脸，实现难度可以说高了许多。

不少网友闻之色变：

此刻是拉斯普京唱Halo，往后会不会整出川普向墨西哥选战啊，感受怕怕的。

连科技媒体The Verge都评价说：

这样的研究总让人们忧虑，怕它会被用在谎言和政治宣传上，其实是让美国立法者们伤思维。虽然，你也可以嗣魅这种在政治规模的威胁没那么严峻，但deepfakes已经确确实实危险了一些人，尤其是女性，在未经赞成的环境下被用来制造了又尴尬又羞耻的色情视频。

也有人认为，等技能遍及之后会给做坏事的人袒护的来由：

等这技能成熟了，川普真的干坏事的小视频出来，他就可以轻描淡写的嗣魅这是假视频。

呵呵，真棒，往后暴徒们被捏到把柄的时辰，就都能说“没有的事啦，是假视频。”

多辨别器布局

怎样用一张照片做出连贯视频？研究职员以为，这必要时序天生反抗收集（Temporal GAN）来资助。

逻辑上不难领略，假如想让天生的假视频传神，画面上至少得有两点身分必需满意：

一是人脸图像必需高质量，二是必要共同发言内容，和谐嘴唇、眉毛等面部五官的位置。也不消动用伟大的面部捕获技能，此刻，只用呆板进修的要领，就能自动合成人脸。

这中间的法门，就在于时序天生反抗收集，也就是Temporal GAN，此前在2018年提出过这个研究。

这是一个端对端的语音驱动的面部动画合成模子，通过静止图像和一个语音天生人脸视频。

在Temporal GAN中有两个辨别器，一个为帧辨别器，确保天生的图像清楚具体，另一个是序列辨别器，认真相应听到的声音并发生对应的面部行为，但结果并不那么优秀。

△ Temporal GAN模子表示图

论文End-to-End Speech-Driven Facial Animation with Temporal GANs 地点：

https://arxiv.org/abs/1805.09313

在这项事变，研究职员借用这种时序天生反抗收集，行使两个时刻辨别器，对天生的视频举办视听对应，来天生传神的面部举措。

同时还勉励模子进一步自发发生新的面部心情，好比眨眼等举措。

以是，最新版基于语音的人脸合成模子来了。模子由时刻天生器和3个辨别器组成，布局如下：

这是一个有条不紊的分工布局，天生器认真吸取单个图像和音频信号作为输入，并将其支解为0.2秒的重叠帧，每个音频帧必需以视频帧为中心。

这个天生器由内容编码器（Content Encoder)，一个辨别编码器（Identity Encoder）、一个帧解码器（Frame Decoder）和声音解码器（Noise Generator）构成，差异模块组合成一个可嵌入模块，通过解码收集转换成帧。

这个体系行使了多个辨别器来捕获天然视频的差异方面，各部门各司其职。

帧辨别器（Frame Discriminator）是一个6层的卷积神经收集，来抉择一帧为真照旧假，同时实现对措辞人面部的高质量视频重建。

序列辨别器（Sequence Discriminator）确保各个帧能形成一个连贯的视频，表现天然行为。

同步辨别器（Synchronization Discriminator）增强了对视听同步的要求，抉择画面和音频应该怎样同步。它行使了两种编码器获取音频和视频的嵌入信息，并基于欧式间隔给出判定。

同步辨别器的布局如下：

就是这样，无需造价奋发的面部捕获技能，只需这样一个收集，就能将一张照片+一段音频组合成流通连贯的视频了。

30多篇CVPR的作者

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？