加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

数据集查找神器!100个大型呆板进修数据集都汇总在这了

发布时间:2019-03-22 02:14:18 所属栏目:移动互联 来源:铜灵
导读:本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 想本身构建呆板进修模子,没想到起首就卡在了第一步。 网上各类数据集鱼龙稠浊,质量也东倒西歪,的确让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:贫困。
副问题[/!--empirenews.page--]

本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。

想本身构建呆板进修模子,没想到起首就卡在了第一步。

网上各类数据集鱼龙稠浊,质量也东倒西歪,的确让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:贫困。

怎样才气高效找到呆板进修规模局限最大、质量最高的数据集?

为了相应宽大网友的呼声,网友u/UpdraftDev将全网最大的呆板进修数据集清算搜集,并对这些数据集举办了分类和先容。

想找心仪数据集,此刻一览无余。网友纷纷暗示:很满足!

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

太利便了

这个网站上,共网络到了100多个业界最大型的数据集。

按照使命种别,这些数据齐集又分为三大类:计较机视觉(CV)、天然说话处理赏罚(NLP)和音频数据集。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

在网站主页,一眼扫已往可以看到数据集名称、宣布时刻、扼要先容、开源协议、相干论文等重要信息,查找起来很是利便。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

点进去就直接跳转到网站主页了,轻轻一点,免除了你挨个搜刮每个数据集地点的贫困。

仙人数据集

清单中罗列的数据齐集,不乏一些风趣的业界知名数据集,在许多的呆板进修使命中,这些数据集都是最适用、呈现场次最高的那一批。

都是哪些仙人数据集?

计较机视觉规模

先来看一下CV规模,汇总中收纳了70个大型数据集,许多常常碰着的经典数据集都在内里。

看看你能认出几个:

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

个中,包括了英伟达客岁12月开源的人脸数据集FFHQ(Flickr-Faces-HQ),内含7万张1024×1024判别率的高清人脸大图。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

它提供了高度多样化、高质量的人脸数据,而且涵盖了比现有高判别率数据集(如CelebA-HQ)更多的变革,好比更多佩带眼镜、帽子的照片。

也有一些认识的中国企业身影。

好比百度开放的自动驾驶数据集ApolloScape,包罗感知、仿真场景、路网数据等数十万帧逐像素语义支解标注的高判别率图像数据。

数据集回收了逐像素语义支解标注的方法,,是情形伟大、标注精准、数据量大的自动驾驶数据集。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

腾讯开源的Tencent ML-Images项目,其多标签图像数据集ML-Images包括了1800万图像和1.1万多种常见物体种别,比谷歌开源的Open Images数据集还富厚不少。

虽然,像ImageNet、KITTI、COCO、Cityscapes等这样的老牌经典数据集也都在内里。

天然说话处理赏罚(NLP)规模

NLP规模今朝有26个数据集:

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

斯坦福大学NLP组的SQuAD 2.0你得相识一下,和一代对比,2.0版在增进反抗性题目的同时,也新增了一项“判定一个题目可否按照提供的阅读文本作答”的使命。

SQuAD 2.0中不只包括十万个题目-谜底对,尚有高出五万个由人类众包者反抗性地计划的无法答复的题目。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

CoQA数据集也是斯坦福开拓的对话数据集,包括来自8k组对话的127k个带有谜底的题目。这些对话涉及 7 个差异规模,每组对话的均匀长度为15轮,每一轮对话都由题目和答复构成。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

另外,DeepMind的Q&A问答数据集、微软的MS MARCO呆板阅读领略数据集、三名中国粹生推出的HotpotQA新型问答数据集等,都可以在这份清单中一键直达。

音频数据集

尚有四个大型音频数据集:

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

谷歌的大局限音频数据集AudioSet,包括632类的音频种别以及2084320 条人工标志的每段10秒的声音剪辑片断,包围大范畴人类与动物、乐器与音乐门户、一般情形声音。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

谷歌NSynth数据集,收录了从1000种乐器中收罗的大量注释的音符,包罗差异的音高和速度,比同类的民众数据集大了一个数目级。

初创公司Mozilla发布的Common Voice数据集,内含2万名英语志愿者500小时、40万份灌音,语料库也在不绝扩充中。

数据集查找神器!100个大型呆板进修数据集都汇总在这了 | 资源

尚有LibriSpeech ASR corpus语音数据集,包罗1000小时的英文发音和对应笔墨,数据来自LibriVox项目标有声读物,是一个大型的语料数据库。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读