加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

重磅果真!阿里语音辨认模子端焦点技能,让你“听”见将来

发布时间:2019-01-22 07:51:25 所属栏目:建站 来源:鄢志杰、薛少飞、张仕良、郑昊、雷鸣
导读:阿里妹导读:语音辨认技能作为人工智能技能中的重要构成部门,成为影响人机交互的焦点组件之一,从各类智能家用 IoT 装备的语音交互手段,到民众处事、伶俐政务等场所的应用,语音辨认技能正在影响着人们糊口的方方面面。 本文将全面先容阿里云语音辨认技

传统的声学模子,输入的是每帧语音信号提取的声学特性,每帧语音的时长凡是为 10ms,对付每个输入的语音帧信号会有相对应的一个输出方针。最近有研究提出一种低帧率(Low Frame Rate,LFR)建模方案:通过将相邻时候的语音帧举办绑定作为输入,去猜测这些语音帧的方针输出获得的一个均匀输出方针。详细尝试中可以实现三帧(或更多帧)拼接而不丧失模子的机能。

从而可以将输入和输出镌汰到原本的三分之一乃至更多,可以极大的晋升语音辨认体系处事时声学得分的计较以及解码的服从。我们团结 LFR 和以上提出的 DFSMN,构建了基于 LFR-DFSMN 的语音辨认声学模子,颠末多组尝试我们最终确定了回收一个包括 10 层 cFSMN 层 +2 层 DNN 的 DFSMN 作为声学模子,输入输出则回收 LFR,将帧率低落到原本的三分之一。辨认功效和客岁我们上线的最好的 LCBLSTM 基线较量如下表所示。

重磅果真!阿里语音辨认模子端焦点技能,让你“听”见将来

通过团结 LFR 技能,我们可以得到三倍的辨认加快。从上表中可以看到,在现实家产局限应用上,LFR-DFSMN 模子比 LFR-LCBLSTM 模子可以得到 20% 的错误率降落,展示了对大局限数据更好的建模特征。

NN-LM 说话模子

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读