加入收藏 | 设为首页 | 会员中心 | 我要投稿湖南网（https://www.hunanwang.cn/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 移动互联 > 正文

这是一份很是全面的开源数据集，你，真的不想要吗？

发布时间：2018-09-08 20:10:19 所属栏目：移动互联来源：机器之心编译

导读：9月15日技能沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖切磋精准运维！近期，skymind.ai 宣布了一份很是全面的开源数据集。内容包罗生物辨认、天然图像以及深度进修图像等数据集，现将其清算如下：(内附链接哦~) 最近新增数据集开源生物辨认数据：

人脸数据集

Labelled Faces in the Wild：13000 个颠末裁剪的人脸地区(行使已经用名称标识符标志过的 Viola-Jones)。数据齐集每小我私人员的子集里包括两个图像——人们常用此数据集实习面部匹配体系。
地点：http://vis-www.cs.umass.edu/lfw/

UMD Faces：有 8501 个主题的 367，920 个面目标带注释数据集。
地点：http://www.umdfaces.io/

CASIA WebFace：高出 10，575 小我私人经面部检测的 453，453 张图像的面部数据集。必要一些质量过滤。
地点：http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html

MS-Celeb-1M：100 万张全天下的绅士图片。必要一些过滤才气在深层收集上得到最佳功效。
地点：https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Olivetti：一些人类的差异图像。
地点：http://www.cs.nyu.edu/~roweis/data.html

Multi-Pie：The CMU Multi-PIE Face 数据库。
地点：http://www.multipie.org/

Face-in-Action：http://www.flintbox.com/public/project/5486/
JACFEE：日本和白种人面部情感表达的图像。
地点：http://www.humintell.com/jacfee/

FERET：面部辨认技法术据库。
地点：http://www.itl.nist.gov/iad/humanid/feret/feret_master.html

mmifacedb：MMI 面部心情数据库。
地点：http://www.mmifacedb.com/

IndianFaceDatabase：http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/
耶鲁人脸数据库：http://vision.ucsd.edu/content/yale-face-database
耶鲁人脸数据库 B：http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
Mut1ny 头部/面部门割数据集：像素高出 16K 的面部/头部门割图像
地点：http://www.mut1ny.com/face-headsegmentation-dataset

————————我是深度进修视频的支解线————————

视频数据集

Youtube-8M：用于视频领略研究的大型多样化标志视频数据集。
地点：https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

文本数据集

20 newsgroups：分类使命，将呈现的单词映射到消息组 ID。用于文天职类的经典数据集之一，凡是可用作纯分类的基准或任何 IR /索引算法的验证。
地点：http://qwone.com/~jason/20Newsgroups/

路透社消息数据集：(较旧)纯粹基于分类的数据集，包括来自消息专线的文本。常用于教程。
地点：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

宾州树库：用于下一个单词或字符猜测。
地点：http://www.cis.upenn.edu/~treebank/

UCI‘s Spambase：来自闻名的 UCI 呆板进修库的(旧版)经典垃圾邮件数据集。按照数据集的组织细节，可以将它作为进修私家垃圾邮件过滤的基线。
地点：https://archive.ics.uci.edu/ml/datasets/Spambase

Broadcast News：大型文本数据集，凡是用于下一个单词猜测。
地点：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44

文天职类数据集：来自 Zhang et al., 2015。用于文天职类的八个数据荟萃集。这些是用于新文天职类基线的基准。样本巨细从 120K 至 3.6M 不等，范畴从二进制到 14 个分类题目。数据集来自 DBPedia、亚马逊、Yelp、Yahoo!和 AG。
地点：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText：来自维基百科高质量文章的大型说话建模语料库，由 Salesforce MetaMind 筹谋。
地点：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD：斯坦福问答数据集——应用普及的问答和阅读领略数据集，个中每个题目的谜底都以文本情势泛起。
地点：https://rajpurkar.github.io/SQuAD-explorer/

Billion Words 数据集：一种大型通用说话建模数据集。凡是用于实习漫衍式单词表征，如 word2vec。
地点：http://www.statmt.org/lm-benchmark/

Common Crawl：收集的字节级抓取——最常用于进修单词嵌入。可从 Amazon S3 上免费获取。也可以用作收集数据集，由于它可在万维网举办抓取。
地点：http://commoncrawl.org/the-data/

Google Books Ngrams：来自 Google book 的持续字符。当单词初次被普及行使时，提供一种简朴的要领来试探。
地点：https://aws.amazon.com/datasets/google-books-ngrams/

Yelp 开源数据集：Yelp 数据集是用于 NLP 的 Yelp 营业、评述和用户数据的子集。
地点：https://www.yelp.com/dataset

————————我是深度进修文本的支解线————————

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3

相关内容

推荐文章

联想拯救者Y90发售两周	这可能是全世界第二好
此次苹果AR设备真的来	iPhone 14系列泄露正

站长推荐

热点阅读