独家专访汪玉：不止是 DPU，深鉴要做 AI 办理方案提供商

发布时间：2017-11-02 00:35:13 所属栏目：访谈来源：雷锋网

导读：对付在清华大学电子工程系接受副传授和党委副书记的汪玉来说，10 月 24 日是一个出格的日子。这一天，他以深鉴科技连系首创人的身份，介入了这家高科技创业公司创立以来的第一场果真宣布会；而在这场宣布会上，他的门生、也就是深鉴科技 CEO 姚颂，在先容

副问题[/!--empirenews.page--]

对付在清华大学电子工程系接受副传授和党委副书记的汪玉来说，10 月 24 日是一个出格的日子。这一天，他以深鉴科技连系首创人的身份，介入了这家高科技创业公司创立以来的第一场果真宣布会；而在这场宣布会上，他的门生、也就是深鉴科技 CEO 姚颂，在先容一些新产物之后，对外公布了深鉴科技的新一轮融资。

右二为汪玉

这轮融资对付方才降生不久却已经备受业界承认的深鉴科技来说，无疑是一个重要的成长机缘；而在这一重要时刻节点上，汪玉也接管了雷锋网的专访。

算法与硬件的协同优化

在这场宣布会上，DPU 也许是从深鉴科技 CEO 姚颂口中呈现次数最多的一个技能名词。

现实上 DPU（Deep Learning Processor Unit，深度进修处理赏罚器）是深鉴科技在投入于人工智能和深度进修大潮水之中时所选择的一个焦点规模。之以是云云，是由于深鉴科技的几位连系首创人在创业之前就意识到，今朝被深度进修算法实习普及应用的 GPU，基础无法在应用层面同时满意高机能低功耗的需求。

“深度进修处理赏罚器必然要颠末模子压缩、模子定点化、编译三大步调，而且必然要拥有针对神经收集的专用布局”。在此环境下，汪玉抉择教育团队从算法、软件、硬件协同的角度，来开拓真正的深度进修处理赏罚器，也就是 DPU。

不外，对付深鉴科技 DPU 而言，一个焦点的技能名词着实是深度压缩（Deep Compression）技能。

2016 年，活着界顶级的深度进修集会会议 ICLR 上，一篇以 Deep Compression：Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman coding 为问题的文章得到最佳论文奖。这篇论文的第一作者是斯坦福大学的博士生韩松，而韩松也正是深鉴科技的连系首创人之一。

独家专访汪玉：不止是 DPU，深鉴要做 AI 办理方案提供商

韩松

在接管雷锋网的专访时，汪玉对深度压缩的技能道理举办了深入浅出的先容：

我们考究的是算法和硬件的协同优化，个中算法的优化表此刻哪儿呢？举例来说，神经收集就像是一个数字矩阵，由于神经收集内里最要害的权重存的处所就是矩阵；压缩的观念就是把这个矩阵内里的许多几何处所都酿成零，这样很多处所就不必要再计较，从而镌汰计较劲。

通过深度压缩技能，不只可以将神经收集压缩数十倍而不影响算法精确度，还可以行使“片上存储”来存储深度进修算法模子，镌汰内存读取，大幅度镌汰功耗。与此同时，基于优化的协同性，深度压缩技能对硬件自己也提出了新的要求。汪玉暗示：

上层算法的压缩，对付底层的硬件来说也会有一个叠加加快的进程：当压缩水平出格高的时辰，就不是一个浓密级的计较方法，在底层取数、做计较都不是浓密的，而是稀少的，这就酿成随机的访存进程。简朴来说，酿成稀少化之后的神经收集，其所对应底层的硬件也是纷歧样的，以是这就是为什么我们还要做自有硬件布局的缘故起因。

深度进修办理方案的提供者

汪玉这里所说的硬件架构，指的是深鉴科技此前已经推出的两个用于深度进修处理赏罚器的底层架构——亚里士多德架构和笛卡尔架构。

汪玉对雷锋网暗示，亚里士多德架构是针对卷积神经收集（CNN），因为计较机视觉处理赏罚常常行使 CNN，以是亚里士多德架构一样平常用来处理赏罚图像相干的智能题目；后者针对的是全链接，因为语音相干的处理赏罚跟全链接的神经收集相干，这种神经收集首要就是用笛卡尔加购这样的布局来加快。

独家专访汪玉：不止是 DPU，深鉴要做 AI 办理方案提供商

亚里士多德架构

独家专访汪玉：不止是 DPU，深鉴要做 AI 办理方案提供商

笛卡尔架构

在宣布会现场，深鉴科技也宣布了数款基于上述两个硬件架构的 DPU 硬件产物。

起首在人脸辨认方面，深鉴科技别离推出了 DP-1200-F01 人脸检测辨认模组和 DP-2100-F16 人脸说明办理方案。前者的特点在于支持 18 帧的高帧率和 3 瓦的功耗，可以用在人脸辨认相机等前端的产物上；后者首要应用于后端，单板卡可以支持 16 路 1080p 视频的及时辨认，而且整体功耗是 30 瓦以下。

二者之外，深鉴科技又推出了视频布局化办理方案 DP-2100-O16，它可以做到 16 路 1080p 高清视频的及时视频布局化，可以做到人、车、非无邪车的检测、跟踪和属性说明。

除了图像类应用，深鉴科技还推出了型号为 DP-S64 的语音辨认加快方案。它支持全稀少化的神经收集处理赏罚，单板卡最多可以支持 64 路用户同时的语音辨认加快。在这种环境下基于稀少的神经收集和模子压缩，可以让语音识此外耽误更短。

独家专访汪玉：不止是 DPU，深鉴要做 AI 办理方案提供商

值得一提的是，这些集成了深鉴本身算法的 DPU 产物，都是基于天下第一大 FPGA 厂商赛灵思的 FPGA 芯片开拓出来的。而深鉴科技在 FPGA 技能方面也有本身的开创之处；在 FPGA 2017 大会上，来自深鉴科技的《 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA 》被评为独一的最佳论文。

然而，在底层硬件上，深鉴科技并不把完全范围于 FPGA，它在 ASIC 方面也有必然的打算。对此，汪玉暗示：

FPGA 的甜头是可以变，可以随时添加模块；假如必要改变架构，可能说焦点架构迭代，都可以在 FPGA 内里很快地做迭代，以是可以或许在很短的时刻内切入市场，提供与 GPU 相等以致高出 GPU 的机能。可是 AISC 可以提供比 FPGA 再好十倍、也就是一个量级以上的潜力，以是在一些专用的规模（好比说手机芯片）AISC 在功耗和机能方面的示意是最好的，不外它的研发时刻最长，从定下来计划的规格到计划出来是很长的时刻。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页