谷歌发布自然问答数据集 Natural Questions
Google 宣布用于实习和评估开放规模(Open-domain)问答体系的大型语料库 Natural Questions(NQ)。该数据集包括了 30 万个天然发生的题目和对应的答复注释,每个答复都是人工从维基百科页面找到的谜底。其它,Google 还举行了挑衅勾当,以 NQ 数据集实习的模子机能来天生挑衅者的排行榜。 开放式域名问答(QA)是天然说话领略(NLU)中的一项基准使命,旨在仿照人们怎样查找信息,通过对题目的阅读和领略找到题目的谜底。譬喻,用天然说话表达的题目(“为什么天是蓝色的?”),QA 体系应该可以或许阅读网页(好比这个维基百科页面 Diffuse sky radiation)并返回正确的谜底,固然谜底有点伟大和冗长。 然而,今朝并没有大量果真可用的天然发生题目(即寻求信息的人提出的题目)和可用于实习评估 QA 模子的谜底。缘故起因是搜集用于问答的高质量数据集,必要大量的现实题目来历以及探求题目谜底的大量人力。 而此刻谷歌宣布的天然问答数据集 Natural Questions 可以说是弥补了这部门资料的空缺。简朴来说,就是 Google 网络自家征采引擎真实的题目查询,搭配维基百科的资料,为问答体系提供实习资料集。这个进程中,举办匿名查询的注释者必要阅读整个维基百科页面,来探求谜底并提供两种谜底注释,包罗涵盖全部资讯的长谜底和简捷的短谜底。 今朝,该数据集网络了 30 万个天然发生的题目与谜底,注释的品格精准度达 90%,其它,Natural Questions 还包罗 1.6 万个典型,每个题目的谜底由 5 个差异的注释者提供。Google暗示,这种资料可以用来评估问答体系的机能。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |