加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

腾讯AI Lab正式开源业内最大局限多标签图像数据集

发布时间:2018-10-20 06:40:46 所属栏目:移动互联 来源:腾讯AI实验室
导读:腾讯 AI Lab 公布正式开源Tencent ML-Images项目,该项目由多标签图像数据集 ML-Images,以及业内今朝同类深度进修模子中精度最高的深度残差收集 ResNet-101 组成。 该项目标开源,是腾讯 AI Lab 在计较机视觉规模所累积的基本手段的一次开释,为人工智能

腾讯AI Lab正式开源业内最大局限多标签图像数据集

腾讯 AI Lab 公布正式开源“Tencent ML-Images”项目,该项目由多标签图像数据集 ML-Images,以及业内今朝同类深度进修模子中精度最高的深度残差收集 ResNet-101 组成。

该项目标开源,是腾讯 AI Lab 在计较机视觉规模所累积的基本手段的一次开释,为人工智能规模的科研职员和工程师提供了富裕的高质量实习数据,及简朴易用、机能强盛的深度进修模子,促进人工智能行业配合成长。

项目会见解点:

https://github.com/Tencent/tencent-ml-images

腾讯 AI Lab 此次发布的图像数据集 ML-Images,包括了 1800 万图像和 1.1 万多种常见物体种别,在业内已果真的多标签图像数据齐集局限最大,足以满意一样平常科研机构及中小企业的行使场景。另外,基于 ML-Images 实习获得的深度残差收集 ResNet-101,具有优秀的视觉暗示手段和泛化机能,在当前业内同类模子中精度最高,将为包罗图像、视频等在内的视觉使命提供强盛支撑,并助力求像分类、物体检测、物体跟踪、语义支解等技能程度的晋升。

本次正式开源,其首要内容包罗:

1、ML-Images 数据集的所有图像 URLs,以及响应的种别标注。因原始图像版权题目,此次开源将不直接提供原始图像,用户可操作腾讯 AI Lab 提供的下载代码和 URLs 自行下载图像。

2、ML-Images 数据集的具体先容。包罗图像来历、图像数目、种别数目、类此外语义标签系统、标注要领,以及图像的标注数目等统计量。

3、完备的代码和模子。腾讯 AI Lab 提供的代码涵盖从图像下载和图像预处理赏罚,到基于 ML-Images 的预实习和基于 ImageNet 的迁徙进修,再到基于逊??得模子的图像特性提取的完备流程。项目提供了基于小数据集的实习示例,以利便用户快速体验该实习流程。项目还提供了具有极高精度的 ResNet-101 模子(在单标签基准数据集 ImageNet 的验证集上的 top-1 精度为 80.73%)。用户可按照自身需求,随意选用该项目标代码或模子。

以深度神经收集为典范代表的深度进修技能已经在许多规模充实揭示出其优秀的手段,尤其是计较机视觉规模,包罗图像和视频的分类、领略和天生等重要使命。然而,要充实验展出深度进修的视觉暗示手段,必需成立在富裕的高质量实习数据、优越的模子布局和模子实习要领,以及强盛的的计较资源等基本手段之上。

各大科技公司都很是重视人工智能基本手段的建树,都成立了仅面向其内部的大型图像数据集,譬喻谷歌的 JFT-300M 和 Facebook 的 Instagram 数据集。但这些数据集及其实习获得的模子都没有果真,对付一样平常的科研机构和中小企业来说,这些人工智能基本手段有着很是高的门槛。

当前业内果真的最大局限的多标签图像数据集是谷歌公司的 Open Images, 包括 900 万图像和 6000 多物体种别。腾讯 AI Lab 此次开源的 ML-Images 数据集包罗 1800 万图像和 1.1 万多常见物体种别,或将成为新的行业基准数据集。

另外,基于 ML-Images 实习获得的 ResNet-101 模子,具有优秀的视觉暗示手段和泛化机能。通过迁徙进修,该模子在 ImageNet 验证集上取得了 80.73% 的 top-1 分类精度,高出谷歌同类模子(迁徙进修模式)的精度,且值得留意的是,ML-Images 的局限仅为 JFT-300M 的约1/17。这充实声名白 ML-Images 的高质量和实习要领的有用性。具体对好比下表。

腾讯AI Lab正式开源业内最大局限多标签图像数据集

注:微软 ResNet-101 模子为非迁徙进修模式下实习获得,即 1.2M 预实习图像为原始数据集 ImageNet 的图像。

腾讯 AI Lab 此次开源的“Tencent ML-Images”项目,揭示了腾讯在人工智能基本手段建树方面的全力,以及但愿通过基本手段的开放促举办业配合成长的愿景。

“Tencent ML-Images”项目标深度进修模子,今朝已在腾讯多项营业中施展重要浸染,如“每天快报”的图像质量评价与保举成果,其靠山测试的日挪用量已达 1000 万次。

如下图所示,每天快报消息封面图像的质量获得明明进步。

腾讯AI Lab正式开源业内最大局限多标签图像数据集

左图为优化前,右图为优化后

另外,腾讯 AI Lab 团队还将基于 Tencent ML-Images 的 ResNet-101 模子迁徙到许多其他视觉使命,包罗图像物体检测,图像语义支解,视频物体支解,视频物体跟踪等。这些视觉迁徙使命进一步验证了该模子的强盛视觉暗示手段和优秀的泛化机能。“Tencent ML-Images”项目将来还将在更多视觉相干的产物中施展重要浸染。

自 2016 年腾讯初次在 GitHub 上宣布开源项目(https://github.com/Tencent),今朝已累积开源包围人工智能、移动开拓、小措施等规模的 57 个项目。为进一步孝顺开源社区,腾讯相继插手 Hyperledger、LF Networking 和开放收集基金会,并成为 LF 深度进修基金会主要首创成员及 Linux 基金会白金会员。作为腾讯“开放”计谋在技能规模的浮现,腾讯开源将继承对内敦促技能研发向共享、复用和开源迈进,向外开释腾讯研发气力,为海表里开源社区提供技能支持,注入研发活力。

【编辑保举】

  1. 谁“杀死”了大数据创颐魅者?
  2. 措施员和产物司理的宿命之战,从“买包中华烟”提及_技能栈微信半月刊第27期
  3. 方才Gartner宣布了2019年十大计谋性技能趋势:自主装备、加强说明、AI驱动的开拓等
  4. Java后端技能栈,到底怎样深入进修?
  5. 腾讯开源框架 Omi 更新,全面拥抱 Web Components
【责任编辑:张燕妮 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读