比基线模子快100倍 Google开源文本天生“加快器”LaserTagger
尽量最新的研究突得端到端的要领在文本天生上比之前更有上风,但其自己存在的不行表明性,一方面使得该模子必要大量的实习数据才气到达可接管的机能程度,另一方面凡是只能逐字天生笔墨,本质上是很慢的。 克日,Google研究团队开源了一款文本编辑模子LaserTagger,可推理出一系列编辑操纵,以将源文本转换为方针文本。研究职员断言,LaserTagger处理赏罚文本天生一样平常不易堕落,且更易于实习和执行。 在此之前,Google已经宣布了Meena,一个具有26亿个参数的神经收集,可处理赏罚多轮对话。1月初,Google在论文中还提出了Reformer模子,可处理赏罚全部小说。
LaserTagger计划和成果 对付很多文本天生使命,输入和输出之间存在高度重叠,LaserTagger正是操作了一点。譬喻,在检测和更正语法错误或多个归并句子时,大大都输入文本可以保持稳固,只需修改一小部门单词。然后,LaserTagger会天生一系列编辑操纵,而非现实单词。 今朝支持的四种编辑操纵:
下图对LaserTagger在句子归并中的应用举办了声名。 图注:LaserTagger猜测的编辑操纵中,删除“Turing”,添加“ and he ”。请留意,输入和输出文本存在的高度重叠。 全部添加的短语均来自受限定的词汇表。该词汇表是一个优化进程的功效,该优化进程具有两个方针:(1)最小化词汇表的巨细和(2)最大化实习样本的数目,个中添加到方针文本的独一须要单词仅来自词汇表。短语词汇量受限定会使输出决定的空间变小,并防备模子添加恣意词,从而减轻了“幻觉”(注:hallucination,模子在所天生的文本中,输入信息中并不存在)的题目。 输入和输出文本的高重叠性的一个推论是,所需的修改每每是局部的而且互相独立。这意味着编辑操纵可以高精度地并行推理,与次序执行推理的自回归seq2seq模子对比,可明显进步端到端的速率。 功效 研究职员评估了LaserTagger在四个使命中的示意,别离是:句子归并,拆分和改述,抽象总结和语法更正。功效表现,行使大量实习样本环境下,LaserTagger与基于BERT的seq2seq基线后果相等,而且在实习样本数目有限时明明优于基线。下面表现了WikiSplit数据集上的功效,个中的使命是将一个长句子改写为两个连贯的短句子。 图注:在100万个样本的完备数据集上实习模子时,LaserTagger和基于BERT的seq2seq基线后果相等,但在10,000个或更少样本的子样本长举办实习时,LaserTagger明明优于基线模子(SARI得分越高越好)。 LaserTagger首要利益 与传统的seq2seq要领对比,LaserTagger具有以下利益:
Google团队最后写道:“ LaserTagger的上风在大局限应用时变得越发明明,譬喻,通过收缩相应时刻并镌汰一再性,改造了某些处事中语音应答的名目。高推理速率使该模子可以插入现有技能仓库中,而不会在用户端增进任何明明的耽误,而改造的数据服从可以网络多种说话的实习数据,从而使来自差异说话配景的用户受益。 ” 相干链接:https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html 本文素材来自互联网 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |