阿里巴巴机器智能团队的三年工作总结
副问题[/!--empirenews.page--]
本文转自雷锋网,如需转载请至雷锋网官网申请授权。 从 2016 年至今,阿里巴巴呆板智能尝试室线下智能团队开始涉足线下智能规模。试探至今,算法方面,他们提出了自主研发的模子压缩要领,新型模子布局和方针检测框架;工程方面,他们研发出一套非数据依靠的量化实习器材,而且针对差异硬件平台,研发了高效推理计较库;同时,他们也和处事器研发团队一路抽象出了一套软硬件产物化方案,以处事多样的营业情势,并在真实营业场景中尝试落地。 在本日这篇文章中,阿里翎翀将从算法试探、实习器材、推理框架、产物化和营业模式等方面临此前的事变做出总结和分享,正文如下,雷锋网(公家号:雷锋网) AI 科技评述获其授权转载。 算法试探
低比特量化是模子压缩( ModelCompression)和推理加快(Inference Acceleration)中一个焦点的题目,目标是将神经收集华夏有的浮点型参数目化成 1-8Bits 的定点参数,从而减小模子巨细和计较资源耗损。为了办理这个题目,我们提出了基于 ADMM(Alternating Direction Method ofMultipliers)的低比特量化方案。在果真数据集 ImageNet 上,我们在 Alexnet,ResNet-18,Resnet-50 等经典 CNN 收集布局上做了尝试,无论是精度上照旧速率上均高出了今朝已知的算法。我们可以在 3-bit 上面做到险些无损压缩。今朝该要领已经被普及应用到各类端上方针检测和图像识此外现实项目中。相干成就已经在 AAAI 2018 上颁发。
量化技能可以通过简化计较单位(浮点计较单位->定点计较单位)晋升推理速率。稀少化( Pruning ) 技能则是通过对神经收集中的通路举办裁剪来镌汰真实计较劲。我们很天然的将这两个技能融合到了一路,来获取极限的理论加快比。在剪枝进程中,我们回收了渐进式的实习要领,并团结梯度信息抉择收集中路径的重要水平。在 ResNet 布局上,我们可以做到 90% 稀少度下的近似无损压缩。 在稀少化研究进程中,我们发明白一个题目,更细粒度的裁剪每每会得到更高的精度,可是价钱是捐躯了硬件友爱性,很难在现实应用中得到理论加快比。在后头的章节中,我们会通过两个角度来办理这个题目:
通过量化和稀少技能,我们可以得到一个理论计较劲足够低,所需计较单位足够简朴的深度收集模子。下一个要办理的题目就是我们怎样将其转换成一个真实推理延时低的算法处事。为了挑衅极限的推理加快结果,我们和处事器研发团队一路,从软硬件连系计划出发办理该题目。在该项目中,我们提出了以下几个创新点,个中包罗:
通过上述方案,我们只必要 0.174ms 的 latency 就可以完成 resnet-18 庞洪水平的模子推理,到达业内最佳程度。该方案在对 latency 敏感的规模具有极大的上风。相干成就已经在 HotChips 30 上展出。
软硬件协同计划是一个很是好的推理办理方案,可是改方案的开拓本钱和硬件本钱都很高。某些特定的场景对付 latency 和 accuracy 的容忍度较量高(譬喻人脸抓拍)。为了办理这类需求,我们提出了一种多连系复用收集(Multi-Layer Feature Federation Network, MuffNet),该布局同时具有 3 个特点:
我们提出的新型收集因为每个单位的计较较量麋集,并不存在过多的碎片操纵,长短常得当在通用硬件上运行的。在果真数据集 ImageNet 上,我们在 40MFLops 计较劲上对比今朝业内最优的 shufflenet v2 布局,精确度晋升了 2%。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |