加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

这是一份很是全面的开源数据集,你,真的不想要吗?

发布时间:2018-09-08 20:10:19 所属栏目:移动互联 来源:机器之心编译
导读:9月15日技能沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖切磋精准运维! 近期,skymind.ai 宣布了一份很是全面的开源数据集。内容包罗生物辨认、天然图像以及深度进修图像等数据集,现将其清算如下:(内附链接哦~) 最近新增数据集 开源生物辨认数据:

问答数据集

  • Maluuba News QA 数据集:CNN 消息文章中的 12 万个问答对。
  • 地点:https://datasets.maluuba.com/NewsQA
  • Quora 问答对:Quora 宣布的第一个数据集,包括一再/语义相似性标签。
  • 地点:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
  • CMU Q / A 数据集:手动天生的仿真问/答对,维基百科文章对其难度评分很高。
  • 地点:http://www.cs.cmu.edu/~ark/QA-data/
  • Maluuba 面向方针的对话:措施性对话数据集,对话旨在完成使命或做出抉择。常用于谈天呆板人。
  • 地点:https://datasets.maluuba.com/Frames
  • bAbi:来自 Facebook AI Research(FAIR)的综合阅读领略和问答数据集。
  • 地点:https://research.fb.com/projects/babi/
  • The Children’s Book Test:Project Gutenberg 提供的儿童图书中提取的(题目+配景、谜底)对的基线。用于问答(阅读领略)和仿真查找。
  • 地点:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

情绪数据集

  • 多规模情感说明数据集:较旧的学法术据集。
  • 地点:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  • IMDB:用于二元情绪分类的较旧、较小数据集。对文献中的基准测试无法支持更大的数据集。
  • 地点:http://ai.stanford.edu/~amaas/data/sentiment/
  • Stanford Sentiment Treebank:尺度情绪数据集,在每个句子理会树的每个节点都有细粒度的情绪注释。
  • 地点:http://nlp.stanford.edu/sentiment/code.html

保举和排名体系

  • Movielens:来自 Movielens 网站的影戏评分数据集,种种巨细都有。
  • 地点:https://grouplens.org/datasets/movielens/
  • Million Song 数据集:Kaggle 上元数据富厚的大型开源数据集,可以辅佐人们行使殽杂保举体系。
  • 地点:https://www.kaggle.com/c/msdchallenge
  • Last.fm:音乐保举数据集,可会见深层交际收集和其余可用于殽杂体系的元数据。
  • 地点:http://grouplens.org/datasets/hetrec-2011/
  • Book-Crossing 数据集:来自 Book-Crossing 社区。包括 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。
  • 地点:http://www.informatik.uni-freiburg.de/~cziegler/BX/
  • Jester:来自 73,421 名用户对 100 个笑话的 410 万个持续评分(分数从-10 至 10)。
  • 地点:http://www.ieor.berkeley.edu/~goldberg/jester-data/
  • Netflix Prize:Netflix 宣布了他们的影戏评级数据集的匿名版;包括 480,000 名用户对 17,770 部影戏的 1 亿个评分。首个首要的 Kaggle 气魄威风凛凛数据挑衅。跟着隐私题目的呈现,只能提供非正式版。
  • 地点:http://www.netflixprize.com/

————————我是深度进修图表的支解线————————

收集和图形

  • Amazon Co-Purchasing:亚马逊评述从「购置此产物的用户也购置了……」这一部门抓取数据,以及亚马逊相干产物的评述数据。得当在收集中试行保举体系。
  • 地点:http://snap.stanford.edu/data/#amazon
  • Friendster 交际收集数据集:在酿成游戏网站之前,Friendster 以伴侣列表的情势为 103,750,348 名用户宣布了匿名数据。
  • 地点:https://archive.org/details/friendster-dataset-201107

语音数据集

  • 2000 HUB5 English:最近在 Deep Speech 论文中行使的英语语音数据,从百度获取。
  • 地点:https://catalog.ldc.upenn.edu/LDC2002T43
  • LibriSpeech:包括文本和语音的有声读物数据集。由多个朗读者阅栋?鼽 500 小时的各类有声读物演讲内容构成,包括带有文本和语音的章节。
  • 地点:http://www.openslr.org/12/
  • VoxForge:带口音的清楚英语语音数据集。合用于晋升差异口音或语调鲁棒性的案例。
  • 地点:http://www.voxforge.org/
  • TIMIT:英语语音辨认数据集。
  • 地点:https://catalog.ldc.upenn.edu/LDC93S1
  • CHIME:嘈杂的语音辨认挑衅数据集。数据集包括真实、仿真和干净的灌音。真实灌音由 4 个扬声器在 4 个嘈杂位置的近 9000 个灌音组成,仿真灌音由多个语音情形和清楚的无噪声灌音团结而成。
  • 地点:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
  • TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲灌音以及这些灌音的笔墨转录。
  • 地点:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

————————我是深度进修音频的支解线————————

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读