60年技术简史,带你读懂AI的前世今生
半监视进修这里指的是通过未标注的图片来预实习进修特性,然后用少量监视的数据举办进修。最新的文章是Google DeepMind的《Data-Efficient Image Recognition with Contrastive Predictive Coding》。这篇文章通过Contrastive Predictive Coding的要领来从大量未标注的数据量提取特性。在这些特性上简朴的加上一个线性的softmax层,在ImageNet上就可以高出行使AlexNet有监视进修的模子。 假如每个类的实习数据只有13个,则本文的要领比只用13个数据实习的模子的Top-5精确率要高20%,比之前最好的半监视模子高10%。传统的许多无监视的特性在少量数据会较量好,可是当数据量足够多的时辰会比完全的监视进修要差,可是本文的要领获得的特性行使所有的ImageNet数据实习,也可以到达和完全监视进修相同的结果,这声名它学到的特性足够好。 语音辨认 语音辨认体系是一个很是伟大的体系,在深度进修技能之前的主流体系都是基于HMM模子。它凡是时辰HMM-GMM来建模subword unit(好比triphone),通过发音辞书来把subword unit的HMM拼接成词的HMM,最后解码器还要插手说话模子最终来融合声学模子和说话模子在庞大的搜刮空间里探求最优的路径。 Hinton一向在实行行使深度神经收集来改造语音辨认体系,最早(2006年后)的事变是2009年颁发的《Deep belief networks for phone recognition》,这正是Pretraining风行的时期,把DBN从计较机视觉用到语音辨认长短常天然的设法。相同的事变包罗2010年的《Phone Recognition using Restricted Boltzmann Machines》。可是这些事变只是举办最简朴的phone分类,也就是判定每一帧对应的phone,这间隔持续语音辨认还相差的很是远。 真正把深度神经收集用于语音识此外重要文章是Hinton等人2012年《Deep Neural Networks for Acoustic Modeling in Speech Recognition》的文章,这篇文章行使DNN更换了传统HMM-GMM声学模子里的GMM模子,以后语音识此外主流框架酿成了HMM-DNN的模子。接着在2013年Sainath等人在《Deep convolutional neural networks for LVCSR》用CNN更换平凡的全毗连收集。从George等人的文章《Improving deep neural networks for LVCSR using rectified linear units and dropout》也可以发此刻计较机视觉常用的一些能力也用到了语音辨认上。 前面的HMM-DNN固然行使了深度神经收集来更换GMM,可是HMM和后头的N-gram说话模子如故存在,并且DNN自己的实习还必要行使HMM-GMM的逼迫对齐来提供帧级此外实习数据。 怎么构建一个End-to-end的语音辨认系同一向是学术界存眷的重点。RNN我们此刻处理赏罚时序数据的有力兵器,2013年的时辰Graves等人在论文《Speech Recognition with Deep Recurrent Neural Networks》里把RNN用于了语音辨认。这篇文章行使了RNN加上CTC丧失函数,CTC是其后的Deep Speech的焦点。固然”真正”把CTC用于语音辨认是在2013年,可是Graves却是早在2006年的时辰就在论文《Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks》提出了CTC。 Hannun等人在2014年提出的《Deep Speech: Scaling up end-to-end speech recognition》是首个结果能和HMM-DNN媲美的End-to-end体系,包罗后续的《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin》。Deep Speech的体系很是简朴,输入是特性序列,输出就是字符序列,没有HMM、GMM、发音辞书这些模块,乃至没有phone的观念。 除了基于CTC丧失函数的End-to-end体系,其它一类End-to-end体系小心了呆板翻译等体系常用的seq2seq模子。这包罗最早的《Listen, attend and spell: A neural network for large vocabulary conversational speech recognition》,Google的《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》总结了用于语音识此外SOTA的一些Seq2Seq模子,而且称他们在现实的体系中行使了这个模子之后词错误率从原本的6.7%降落到5.6%。这是首个在业界真正获得应用的End-to-end的语音辨认体系(固然Andrew Ng率领的百度IDL提出了Deep Speech和Deep Speech2,可是在百度的现实体系中并没有行使它)。 下图是常见数据集上的结果,拿SwitchBoard为例,在2006年之前的盼望是较量迟钝的,可是在行使了深度进修之后,词错误率一连降落,图中是2017年的数据,微软的体系已经降到了6.3%的词错误率。 图:词错误率变革 天然说话处理赏罚 和语音辨认差异,天然说话处理赏罚是一个很”错乱”的规模,语音辨认就一个使命——把声音酿成笔墨,纵然加上相干的语音合成、措辞人辨认等使命,也远远无法和天然说话处理赏罚使命数目对比。天然说话处理赏罚的终极方针是让呆板领略人类的说话,领略是一个很恍惚的观念。相对论的每个词的寄义我都也许知道,可是并不代表我领略了相对论。 由于这个缘故起因,在这里我存眷的是较量普适性的要领,这些要领能用到许多的子规模而不是范围于某个详细的使命。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |