加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

2019深度进修语音合成指南(上)

发布时间:2019-12-22 15:11:26 所属栏目:运营 来源:站长网
导读:副问题#e# 人工天生的人类语音被称为语音合成。这种基于呆板进修的技能合用于文本到语音转换、音乐天生、语音天生、启用语音的装备、导航体系以及视障人士的可会见性。 在本文中,我们将研究行使深度进修编写和开拓的研究和模子系统布局。 但在我们开始之前

作者还先容了一种基于WaveNet的声谱到音频的神经声码器,并将其与Taco tron团结,取代Griffin-Lim音频天生。这篇文章的重点是处理赏罚多个措辞人而每个措辞人的数据有很是少的环境。模子的架构相同于Deep Voice 1,实习进程如下图所示。

2019深度进修语音合成指南(上)

Deep Voice 2和Deep Voice 1之间的首要区别在于音素一连时刻模子和频率模子的疏散。Deep Voice 1有一个用于连系猜测音素一连时刻和频率曲线的单一模子; 而在Deep Voice 2中,则先猜测音素一连时刻,然后将它们用作频率模子的输入。

Deep Voice 2中的支解模子行使一种卷积递归布局(回收毗连时刻分类(CTC)丧失函数)对音素对举办分类。Deep Voice 2的首要修改是在卷积层中添加了大量的归一化和残余毗连。它的发声模子是基于WaveNet架构的。

从多个措辞人合成语音,首要通过用每个措辞人的单个低维级措辞人嵌入向量加强每个模子来完成的。措辞人之间的权重分派,则是通过将与措辞人相干的参数存储在很是低维的矢量中来实现。

递归神经收集(RNN)的初始状态由措辞人声音的嵌入发生。回收匀称漫衍的要领随机初始化措辞人声音的嵌入,并用反向撒播对其举办连系实习。措辞人声音的嵌入包括在模子的多个部门中,以确保能思量到每个措辞人的声音特点。

2019深度进修语音合成指南(上)

接下来让我们看看与其他模子对比它的机能怎样

2019深度进修语音合成指南(上)

2019深度进修语音合成指南(上)

原文链接:https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读