加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

阿里巴巴机器智能团队的三年工作总结

发布时间:2019-05-22 23:25:58 所属栏目:建站 来源:汪思颖
导读:本文转自雷锋网,如需转载请至雷锋网官网申请授权。 从 2016 年至今,阿里巴巴呆板智能尝试室线下智能团队开始涉足线下智能规模。试探至今,算法方面,他们提出了自主研发的模子压缩要领,新型模子布局和方针检测框架;工程方面,他们研发出一套非数据依靠

对检测模子做全量化处理赏罚。

阿里巴巴呆板智能尝试室线下智能团队三年岁情总结

阿里巴巴呆板智能尝试室线下智能团队三年岁情总结

如上表所示,沟通 backbone 收集的环境下,我们提出的 LRSSD 在镌汰 SSD HEAD 计较劲的同时,mAP 可以不变晋升3%-4% 。从另一个角度来看,在担保检测精度稳固的环境下,我们的要领可以将模子伟大度镌汰到原本的 50% 阁下。假如再思量到量化带来的速率加成,在沟通精度下,对比原有全精度模子,我们可以得到共约 2-3 倍的真实速率晋升。

小结

上文给出了我们近 2 年内涵线下智能—模子压缩规模所做的一些技能蕴蓄。归纳起来如下:

  • 量化方面:我们可以做到 3-bit 量化险些无损压缩!

  • 稀少方面:对付传统收集布局,我们可以做到 90% 稀少度下的险些无损压缩!

  • 软硬件协同计划方面:我们连系处事器研发团队,到达 0.174ms/张的 resnet18 极限推理速率,今朝已知业内最佳结果!

  • 轻量级收集计划方面:我们在 40MFlops 计较劲下,相对今朝业内最好布局,在 ImageNet 数据集上绝对晋升 2%!

  • 端上方针检测方面,我们在担保精度稳固的环境下,速率晋升约 2-3 倍!

在技能试探的同时,我们也在起劲的将上述技能应用到现实的营业中。在这一进程中我们发明白下列几个题目:

  • 易用性:营业场景每每必要快速的迭代手段和机动利便的陈设手段,因此非尺度化的方案很难被普及应用。

  • 理论速率 vs 真实速率: 除了算法和硬件以外,真实的模子推理速率是必要一个高效的工程实现作为支撑的。

  • 集成化 :线下智能必要同时检验团队在硬件和软件两方面的气力,这对营业而言每每过分极重。

在本文后半部门,我们起首会针对上述的几个题目先容我们已经做过的实行和沉淀出的办理方案。最后,我们列出了一些实例,展示如安在详细的营业场景中应用线下智能技能,但愿可以给列位同窗一个更直观的熟悉。

实习器材

在现实营业推广进程中,我们碰着的第一个题目是易用性题目:

差异营业每每行使的深度进修库多种多样,譬喻 Caffe, Tensorflow, Mxnet 等等;

差异营业行使的基本技能差别较量大,有分类辨认、检测、支解、语音等等;

差异营业的数据安详级别差别较量大,有些可以果真,有些则必要完全物理断绝;

为了让更多的场景都可以用上我们的处事,得到 AI 的盈利,我们提出了一套尺度化的量化实习器材。

 阿里巴巴呆板智能尝试室线下智能团队三年岁情总结

如上图所示,起首,我们的器材输入支持多种模子名目(TensorFlow,Caffe,Mxnet 等)。其次,我们提供了两种差异的模子量化要领,一种是支持差异使命(分类,检测,支解等)的数据依靠型压缩要领(Data Dependent Compression),合用于对数据安详要求不是很高,但愿追求精度最大化的营业;另一种是数据非依靠压缩要领(Data Independent Compression),合用于对数据安详要求高,可能营业逻辑不是出格伟大的场景。

最后,在量化事变完成后,我们的器材会自动完成推理图的优化和模子加密,天生可以现实陈设的模子文件。共同对应的推理加快库即可在端上运行。从易用性和数据安详性角度出发,我们保举行使数据非依靠性的压缩要领。

今朝,该套器材作为 MNN 保举的量化器材普及应用在阿里团体内多个线下营业场景中。

推理框架

现实中碰着的第二个题目就是真实推理速率题目,事实光有易用性是不足的,实打实的营业结果才是营业最想要的。这里我们行使阿里团体其他的兄弟团队提供的推理框架:

  • ARM 架构: 我们回收淘系技能团队研发的 MNN 作为推理框架;

  • GPU 架构: 我们回收呆板智能技能团队研发的 falcon_conv 卷积库作为推理框架;

  • FPGA 架构:我们回收处事器研发团队研发的推理框架。

MNN

MNN 是一个轻量级的深度进修端侧推理引擎,焦点办理深度神经收集模子在端侧推理运行题目,涵盖深度神经收集模子的优化、转换和推理。今朝,MNN 已经在手淘、手猫、优酷、聚划算、UC、飞猪、千牛等 20 多个 App 中行使。选用常见的深度神经收集模子 MobileNet V2 和 SqueezeNet V1.1 作为测试样本:Android 方面,以小米 6 为例,MNN 在 CPU 和 GPU 上领先业界至少 30%;iOS 方面,以 iPhone 7 为例,MNN 在 CPU 和 GPU 上领先业界至少 15%。

FPGA

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读