加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

谷歌翻译是怎样借助多项新兴AI技能进步翻译质量的

发布时间:2020-06-07 05:14:25 所属栏目:运营 来源:网易科技报道 网易号
导读:网易科技讯6月6日动静,据海外媒体报道,谷歌暗示,它已在进步没有大量书面文本语料的说话的翻译质量上取得了盼望。在一篇即将正式颁发的博客文章中,该公司具体先容了助力晋升谷歌翻译(Google Translate)所支持的108种说话翻译质量的新创新技能(出格是
副问题[/!--empirenews.page--]

谷歌翻译是怎样借助多项新兴AI技能进步翻译质量的

网易科技讯6月6日动静,据海外媒体报道,谷歌暗示,它已在进步没有大量书面文本语料的说话的翻译质量上取得了盼望。在一篇即将正式颁发的博客文章中,该公司具体先容了助力晋升谷歌翻译(Google Translate)所支持的108种说话翻译质量的新创新技能(出格是缺乏语料数据的约鲁巴语和马拉雅拉姆语)。

谷歌翻译处事均匀天天翻译1500亿个单词。

自谷歌翻译初次表态以来的13年里,神经呆板翻译、基于重写的范式和装备端处理赏罚等技能的呈现和改造,助力该平台的翻译精确性取得不小的奔腾。但直到连年,即即是最先辈的翻译支持算法也一向落伍于人类的示意。谷歌以外的全力充实声名白这个题目的严峻性——旨在使得非洲大陆的数千种说话可自动翻译的Masakhane项目,至今还没有走出数据网络和转录阶段。Mozilla致力于成立一个开源的语音转录数据网络平台Common Voice,自2017年6月推出以来也只检察了40种语音。

谷歌称,它在翻译规模所取得的打破并不是由单一技能驱动的,而是针对低资源说话、高资源说话、总体质量、耽误和整体推理速率的多项技能配合浸染发生的。在2019年5月到2020年5月之间,按照人工评估和BLEU(基于翻译体系翻译和人工参考翻译之间相似性的权衡尺度),谷歌翻译在全部说话中均匀进步了5分以上,在50种语料资源起码的说话中均匀进步了7分以上。

殽杂模子和数据发掘器

这些技能中的第一个是转换模子架构——一种殽杂架构,包罗一个Transformer编码器和一个用Lingvo实现的递归神经收集(RNN)解码器,后者是一个用于序列建模的TensorFlow框架。

在呆板翻译中,编码器凡是将单词和短语编码为内部暗示情势,然后由解码器天生方针说话的文本。基于Transformer的模子是谷歌研究职员在2017年初次提出的,在这一点上它比RNN更有用,但谷歌暗示,它的研究表白,翻译质量的进步首要来自Transformer的一个部件:编码器。这也许是由于固然RNN和Transformer都是为处理赏罚有序的数据序列而计划的,但后者并不要求按次序处理赏罚数据序列。换句话说,假如涉及的数据是天然说话,Transformer不必先处理赏罚好句子的开头才处理赏罚句子的末了。

然而,RNN解码器在推理时刻上如故比Transformer中的解码器要“快得多”。谷歌翻译团队熟悉到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器举办了优化,以建设低耽误、质量及不变性均比此前所行使的RNN神经呆板翻译模子更胜一筹的殽杂模子。原本行使的RNN神经呆板翻译模子已有4年汗青。

谷歌翻译是怎样借助多项新兴AI技能进步翻译质量的

2006年上线不久以来,谷歌翻译模子各类说话的BLEU得分晋升趋势

除了打造新奇的殽杂模子架构之外,谷歌还进级了一个有几十年汗青的爬虫措施。该措施用来从文章、书本、文档和收集搜刮功效等内容中的数百万条示例翻译中体例实习语料。该新数据发掘器基于支持14个说话对的嵌入模式,而非基于辞书模式,也就是说它是行使实数向量来暗示单词和短语,更多地聚焦于准确性(检索数据中的相干数据部门),而非检索(现实检索的相干数据总量)。产出结果方面,谷歌嗣魅这使得该数据发掘器提取到的句子数目均匀增进了29%。

噪声数据和迁徙进修

翻译机能晋升的另一来历是一种建模要领,它能更好地处理赏罚实习数据中的噪声。据调查,噪声数据(含有大量无法正确领略或表明的信息的数据)会侵害语料数据富厚的说话的翻译质量。以是,谷歌翻译团队陈设体系来给行使噪声数据实习的模子的示例打分,进而筛选出“纯净”的数据。现实上,这些模子一开始基于全部的数据举办实习,然后逐渐基于更小、更纯净的数据子集举办实习,这种要领在人工智能研究规模被称为课程进修。

对付资源较少的说话,谷歌在谷歌翻译中回收了一个回译机制,来强化并行实习数据,即说话中的每个句子都与其译文相配对。(呆板翻译传统上依靠于源说话和方针说话成对句子的语料库的统计。)在该机制中,实习数据与合成的并行数据自动对齐,方针文本为天然说话,而源文本则由神经翻译模子天生。功效是,谷歌翻译充实操作更富厚的单语文本数据来实习模子,谷歌称这对进步翻译流通性出格有辅佐。

谷歌翻译是怎样借助多项新兴AI技能进步翻译质量的

谷歌舆图自带的翻译成果

谷歌翻译此刻还回收M4建模要领,即用一个单一的巨型模子——M4——来在多种说话和英语之间举办翻译。(M4最初是在客岁的一篇论文中提出的,该论文证明,在基于来自100多种说话的250亿对句子举办实习后,M4进步了30多种低资源说话的翻译质量。)M4建模让谷歌翻译中的迁徙进修成为也许,因此,通过基于法语、德语、西班牙语等高资源说话 (它们稀有十亿条并行示例语料)的实习得到的看法,可以应用于低资源说话的翻译,如约鲁巴语、信德语和夏威夷语(它们只稀有万条示例)。

瞻望将来

谷歌称,自2010年以来,凭证BLEU尺度(满分100分,谷歌翻译程度每年至少进步1分,但自动化呆板翻译的题目并没有获得办理。谷歌认可,纵然是它的加强模子,也会呈现各类错误,如归并一种说话的差异方言,发生明明的字面翻译,以及在特定主题内容和非正式说话或口语上示意糟糕等等。

这家科技巨头正想方想法来办理这一挑衅,包罗借助它的谷歌翻译社区。该游戏化项目招募志愿者来翻译单词和短语可能搜查翻译是否正确,借助他们来提坎坷资源说话的翻译质量。就在本年2月,团结新兴的呆板进修技能,该项目为谷歌翻译增进了对总共7500万人行使的五种说话的支持,包罗基尼亚卢旺达语、奥里雅语、鞑靼语、土库曼语和维吾尔语。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读