面向神经呆板翻译的篇章级单语批改模子
副问题[/!--empirenews.page--]
本文转自雷锋网,如需转载请至雷锋网官网申请授权。 《面向神经呆板翻译的篇章级单语批改模子》[1]是EMNLP2019上一篇关于篇章级神经呆板翻译的事变。针对篇章级双语数据稀缺的题目,这篇文章切磋了怎样操作篇章级单语数据来晋升最终机能,提出了一种基于方针端单语的篇章级批改模子(DocRepair),用来批改传统的句子级翻译功效。 1、配景近几年来,神经呆板翻译敏捷成长,google在2017年提出的Transformer模子[2]更是使得翻译质量大幅晋升,在某些规模已经可以到达和人类媲美的程度[3]。然而,现在的大部门呆板翻译体系还是基于句子级的,无法操作篇章级的上下文信息,如安在呆板翻译进程中有用操作篇章级信息是当今的研究热门之一。 跟着基于自留意力机制的Transformer模子在呆板翻译使命中普及应用,很多之前基于轮回神经收集(RNN)呆板翻译模子的篇章级要领不再合用。最近,很多研究职员实行对Transformer举办改造,在编码或解码阶段引入上下文信息。Voita等人[4]起首提出了一种基于Transformer的模子(图1)的篇章级翻译模子,在传统的模子之外,特殊增进了一个上下文编码器(context encoder)用来编码上下文信息,然后和当前句子的编码功效举办融合,送到解码器。张嘉诚等人[5]回收了其它一种做法,别离在编码器息争码器中增进了一个上下文留意力(context attention)子层(图2)用来引入上下文信息。尚有一些研究职员实行行使二阶段(two-pass)模子的方法[6][7],起首举办句子级解码,然后行使一个篇章级解码器团结句子级解码功效和源语上下文编码来举办篇章级解码。另外,一些事变对篇章级翻译必要引入那些上下文信息举办了探讨。 上述事变在呆板翻译的进程中引入上下文信息,将篇章级翻译作为一个整体进程。这种方法建模越发天然,可是必要足够的篇章级双语数据举办实习。然而,现实中篇章级双语数据很难获取,作者就是针对篇章级双语数据稀缺的题目提出了DocRepair模子。 2、DocRepair模子和二阶段的要领相同,DocRepair模子也是对句子级功效的批改,可是差异点在于,DocRepair模子仅仅必要行使单语数据。作为一个单语的序列到序列模子(seq2seq)模子,DocRepair模子必要将上下文纷歧致的句子组映射到一个同等的功效,来办理上下文的纷歧致性,进程如图2。 模子的实习语料来自于轻易获取的篇章级单语语料。单语数据中上下文同等的句子组作为模子输出,而通过round-trip的方法构建的上下文纷歧致的句子组作为模子输入。round-trip分为两个阶段,必要正向和反向两个翻译体系。起首行使反向的翻译模子将方针端的篇章级单语数据翻译到源语端,获得丢失了句子间上下文信息的源语功效,然后通过正向的翻译模子将源语功效翻译回方针端,获得最终必要的上下文纷歧致的方针端数据,整体流程如图3所示。 DocRepair模子回收了尺度的Transformer布局(图4),模子输入为不包括上下文信息的句子序列,通过一个脱离令牌毗连成一个长序列,模子输出为批改后的上下文同等的序列,去掉脱离令牌获得最终功效。 作者提出的这种布局可以看作一个自动后编辑体系,独立于翻译模子,最大的利益就在于只必要行使方针端单语数据就能结构实习集。相对应的,这种要领引入了特另外布局,增进了整系一切的伟大度,使得实习和推理价钱变大。同时,因为仅仅在方针端按照翻译功效举办批改,完全没有引入源语端的信息,DocRepair模子也许没有充实思量到上下文信息。之前的一些事变也证实了源语端上下文信息在篇章级呆板翻译中的浸染,怎样操作源语端的单语数据来更好地提取上下文信息也是将来一个值得研究的偏向。 3、尝试为了验证要领的有用性,作者从BLEU、篇章级专用测试集和人工评价三个角度举办了比拟尝试。尝试在英俄使命长举办,数据集行使了开放数据集OpenSubtitles2018。 表1是DcoRepair的比拟尝试功效。个中,baseline回收了Transformer base模子,CADec[7]为一个两阶段的篇章级翻译模子。同时,为了验证DocRepair模子在篇章级翻译上有用性,而不只仅是由于对句子举办后编辑使得翻译质量晋升,同样实习了一个基于句子级的repair模子。可以看到,DocRepair在篇章级呆板翻译上是有用的,比sentence-level repair模子跨越0.5 BLEU,同时比拟baseline和CADec有0.7 BLEU的晋升。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |