5 款不错的开源语音辨认/语音笔墨转换体系

发布时间：2019-06-24 19:33:19 所属栏目：移动互联来源：LCTT 编译

导读：语音笔墨转换(speech-to-text)（STT）体系就像它名字所蕴含的意思那样，是一种将说出的单词转换为文本文件以供后续用途的方法。语音笔墨转换技能很是有效。它可以用到很多应用中，譬喻自动转录，行使本身的声音写书本或文本，用天生的文本文件和其他器材

副问题[/!--empirenews.page--]

语音笔墨转换(speech-to-text)（STT）体系就像它名字所蕴含的意思那样，是一种将说出的单词转换为文本文件以供后续用途的方法。

语音笔墨转换技能很是有效。它可以用到很多应用中，譬喻自动转录，行使本身的声音写书本或文本，用天生的文本文件和其他器材做伟大的说明等。

在已往，语音笔墨转换技能以专有软件和库为主导，要么没有开源更换品，要么有着严酷的限定，也没有社区。这一点正在产生改变，当今有很多开源语音笔墨转换器材和库可以让你随时行使。

这里我列出了 5 个。

开源语音辨认库

DeepSpeech 项目

5 Good Open Source Speech Recognition/Speech-to-Text Systems 16 open source speech recognition

该项目由 Firefox 赏识器的开拓组织 Mozilla 团队开拓。它是 100% 的自由开源软件，其名字体现行使了 TensorFlow 呆板进修框架实现去成果。

换句话说，你可以用它实习本身的模子得到更好的结果，乃至可以用它来转换其余的说话。你也可以轻松的将它集成到本身的 Tensorflow 呆板进修项目中。痛惜的是项目当前默认仅支持英语。

它也支持很多编程说话，譬喻 Python（3.6）。可以让你在数秒之内完成事变：

pip3 install deepspeech 
deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav

你也可以通过 npm 安装它：

npm install deepspeech

项目主页

Kaldi

5 Good Open Source Speech Recognition/Speech-to-Text Systems 18 open source speech recognition

Kaldi 是一个用 C++ 编写的开源语音辨认软件，而且在 Apache 民众容许证下宣布。它可以运行在 Windows、macOS 和 Linux 上。它的开拓始于 2009。

Kaldi 高出其他语音辨认软件的首要特点是可扩展和模块化。社区提供了大量的可以用来完成你的使命的第三方模块。Kaldi 也支持深度神经收集，而且在它的网站上提供了精彩的文档。

固然代码首要由 C++ 完成，但它通过 Bash 和 Python 剧本举办了封装。因此，假如你仅仅想行使根基的语音到笔墨转换成果，你就会发明通过 Python 或 Bash 可以或许等闲的实现。

项目主页

Julius

5 Good Open Source Speech Recognition/Speech-to-Text Systems 20 open source speech recognition

它也许是有史以来最迂腐的语音辨认软件之一。它的开拓始于 1991 年的京都大学，之后在 2005 年将全部权转移到了一个独立的项目组。

Julius 的首要特点包罗了执行及时 STT 的手段，低内存占用（20000 单词少于 64 MB），可以或许输出最优词(N-best word)和词图(Word-graph)，可以或许作为处事器单位运行等等。这款软件首要为学术和研究所计划。由 C 说话写成，而且可以运行在 Linux、Windows、macOS 乃至 Android（在智妙手机上）。

它当前仅支持英语和日语。软件应该可以或许从 Linux 刊行版的客栈中轻松安装。只要在软件包揽理器中搜刮 julius 即可。最新的版本宣布于本文宣布前约莫一个半月之前。

项目主页

Wav2Letter++

5 Good Open Source Speech Recognition/Speech-to-Text Systems 22 open source speech recognition

假如你在探求一个越发时髦的，那么这款必然得当。Wav2Letter++ 是一款由 Facebook 的 AI 研究团队于 2 个月之前宣布的开源说话辨认软件。代码在 BSD 容许证下宣布。

Facebook 描写它的库是“最快、最先辈(state-of-the-art)的语音辨认体系”。构建它时的理念使其默认针对机能举办了优化。Facebook 最新的呆板进修库 FlashLight 也被用作 Wav2Letter++ 的底层焦点。

Wav2Letter++ 必要你先为所描写的说话成立一个模子来逊?с法。没有任何一种说话（包罗英语）的预实习模子，它仅仅是个呆板进修驱动的文本语音转换器材，它用 C++ 写成，因此被定名为 Wav2Letter++。

项目主页

DeepSpeech2

5 Good Open Source Speech Recognition/Speech-to-Text Systems 24 open source speech recognition

中国软件巨头百度的研究职员也在开拓他们本身的语音笔墨转换引擎，叫做“DeepSpeech2”。它是一个端对端的开源引擎，行使“PaddlePaddle”深度进修框架举办英语或汉语的笔墨转换。代码在 BSD 容许证下宣布。

该引擎可以在你想用的任何模子和任何说话上实习。模子并未随代码一同宣布。你要像其他软件那样本身成立模子。DeepSpeech2 的源代码由 Python 写成，假如你行使过就会很是轻易上手。

项目主页

总结

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

联想拯救者Y90发售两周	这可能是全世界第二好
此次苹果AR设备真的来	iPhone 14系列泄露正