Google开源了可加快文本天生的AI模子LaserTagger
由序列到序列的AI模子由Google于2014年推出,旨在将输入(凡是是文本)与输出举办映射,个中输入和输出的长度也许会有所差异。它们被用于文本天生使命,包罗择要,语法错误更正和句子融合,而且最近的系统布局打破使它们比早年更能施展浸染。可是它们并不完美,由于它们必要大量的实习数据才气到达可接管的机能程度,并且它们凡是逐字天生输出(这会使它们固有地变慢)。 这就是Google研究职员开拓LaserTagger的缘故起因,LaserTagger是一种开放源代码的文本编辑模子,该模子可以猜测将源文本转换为方针文本的一系列编辑操纵。他们暗示LaserTagger以一种不易堕落的方法处理赏罚文本天生,而且更易于实习和执行。 LaserTagger的宣布是Google在天然说话处理赏罚和领略规模迈出的重要一步。本周,他们完成了Meena的总结,Meena是一个具有26亿个参数的神经收集,可以处理赏罚多圈对话。 LaserTagger的事变道理是:对付很多文本天生使命,输入和输出之间常常存在重叠。譬喻,在检测和更正语法错误或融合多个句子时,大大都输入文本可以保持稳固,只需修改一小部门单词。然后,LaserTagger会发生一系列的编辑操纵,而不是现实的单词,譬喻keep(将单词复制到输出,delete 删除单词,以及keep-addx或delete-addx在标志前添加短语X,并可以选择删除已标志的字)。 添加的短语来自受限定的词汇表,该词汇表已颠末优化,可以最洪流平地镌汰词汇量,并增进实习示例的数目。添加到方针文本的独一须要单词仅来自词汇表,从而停止了模子添加恣意单词并减轻了恍惚的题目(即,发生输入文本不支持的输出)。并且LaserTagger可以高精度地并行猜测编辑操纵,与次序执行猜测的模子对比,可以实现端到端的加快。 对多个文本天生使命举办了评估,LaserTagger在行使大量实习示例的基准模子上示意出“相等强盛”的机能,而且速率比之前快了100倍。纵然仅行使几百或几千个培训示例举办培训,它也会发生“公道”的功效,可以手动编辑或清算。 该团队写道:“ LaserTagger的上风在大局限应用时变得越发明明,譬喻,通过镌汰相应的长度并镌汰一再性,改造了某些处事中语音应答的名目。高推理速率使该模子可以插入现有技能仓库中,而不会在用户端增进任何明明的耽误,而改造的数据服从可以网络多种说话的实习数据,从而使来自差异说话配景的用户受益。 ” GitHub链接:https://github.com/google-research/lasertagger (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |