重磅果真!阿里语音辨认模子端焦点技能,让你“听”见将来
传统的声学模子,输入的是每帧语音信号提取的声学特性,每帧语音的时长凡是为 10ms,对付每个输入的语音帧信号会有相对应的一个输出方针。最近有研究提出一种低帧率(Low Frame Rate,LFR)建模方案:通过将相邻时候的语音帧举办绑定作为输入,去猜测这些语音帧的方针输出获得的一个均匀输出方针。详细尝试中可以实现三帧(或更多帧)拼接而不丧失模子的机能。 从而可以将输入和输出镌汰到原本的三分之一乃至更多,可以极大的晋升语音辨认体系处事时声学得分的计较以及解码的服从。我们团结 LFR 和以上提出的 DFSMN,构建了基于 LFR-DFSMN 的语音辨认声学模子,颠末多组尝试我们最终确定了回收一个包括 10 层 cFSMN 层 +2 层 DNN 的 DFSMN 作为声学模子,输入输出则回收 LFR,将帧率低落到原本的三分之一。辨认功效和客岁我们上线的最好的 LCBLSTM 基线较量如下表所示。 通过团结 LFR 技能,我们可以得到三倍的辨认加快。从上表中可以看到,在现实家产局限应用上,LFR-DFSMN 模子比 LFR-LCBLSTM 模子可以得到 20% 的错误率降落,展示了对大局限数据更好的建模特征。 NN-LM 说话模子 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |