加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

谷歌提出可量化评估NLG模型性能的BLEURT指标

发布时间:2020-05-28 22:12:23 所属栏目:创业 来源:互联网
导读:(来自:MIT Tech Review) 谷歌研究职员称,BLEURT 是一种针对天然说话模子(NLG)的全新自动化评估指标,可为差异模子打出靠得住的评分,功效靠近、乃至逾越了人类指标。 据悉,BLEURT 的焦点为呆板进修。对付任何 ML 模子,最重要的就是实习用的数据有多

谷歌提出可量化评估NLG模子机能的BLEURT指标

(来自:MIT Tech Review)

谷歌研究职员称,BLEURT 是一种针对天然说话模子(NLG)的全新自动化评估指标,可为差异模子打出靠得住的评分,功效靠近、乃至逾越了人类指标。

据悉,BLEURT 的焦点为呆板进修。对付任何 ML 模子,最重要的就是实习用的数据有多富厚。然而对付 NLG 模子来说,其实习数据是相等有限的。

谷歌提出可量化评估NLG模子机能的BLEURT指标

现实上,在 WMT Metrics Task 数据齐集(今朝人类汇聚的最大荟萃),也仅网络了涵盖消息规模的约莫 26 万数据。

若将之用作独一的实习数据集,那 WMT 怀抱使命数据集将失去实习模子的通用性和鲁棒性。为攻陷这一题目,研究职员采纳了转移进修的要领。

起首,研究团队行使了 BERT 的上下文词,且其已顺遂聚合到 Yis 和 BERTscore 等 NLG 量化器材中。

接着,研究职员先容了一种新奇的预实习方案,以晋升 BLEURT 的鲁棒性和精确度,同时有助于应对模子的质量偏移。

谷歌提出可量化评估NLG模子机能的BLEURT指标

在微调人工量化尺度前,BLEURT 借助了数以百万计的合成句子,对 NLG 模子睁开了“预热”实习。其通过来自维基百科的句子、加上随机扰动来天生实习数据。

研究团队未手机人工评分,而是行使了相干文献(含 BLEU)中的指标与模子荟萃,可以或许以极低的价钱来扩大实习示例的数目,然后对 BLEURT 举办了两次预实习。

其一阶段方针是说话建模,二阶段方针则是评估 NLG 模子,从此团队在 WMT 指标数据集上对模子举办了微调。一旦受过实习,BLEURT 就会试着与竞争方案反抗,以证明其因为当前的指标。

谷歌提出可量化评估NLG模子机能的BLEURT指标

据悉,BLUERT 在 Python 3 上运行,且依靠于 TensorFlow,详情可参阅 GitHub 项目先容页(传送门)。有关这项研究的详情,可翻看 ArXiv 上的预印本。

最后,研究职员还总结了其余功效,好比 BLEURT 试图“捕捉外貌重叠以外的 NLG 质量”,该指标在两项学术基准评估中得到了 SOTA 的评价。

本文素材来自互联网

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读