加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

发布时间:2018-11-09 09:16:02 所属栏目:编程 来源:36氪
导读:原问题:快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效 李岩在演讲中暗示,多模态技能有两大应用偏向,一是会改变人机交互的方法,二是将使信息分发越发高效;视频自己就是一个多模态的题目,而快手则拥有海量的多模态数据,多模态的研

着实办理这样一个题目长短常难的,由于纵然是像苹果这样的公司,也是回收了布局光这样设置特殊硬件的方法来办理。想让每一个用户都能享受到最尖端的技能,快手面对着硬件的束缚,只能通过2D的RGB视觉信息对题目举办建模、求解,这内里包罗了像Landmark人脸要害点检测、及时重建人脸三维模子等技能,把2D和3D两种差异模态的信息做建模、做对齐。

我们也能看到此刻市场上也许有一些小型的APP在做相同的工作,但体验很差,而我们的整体体验还长短常好很是流通的,这也必要归功于深度神经收集模子的量化,通过压缩和加快办理手机机能题目,可适配恣意机型。

多模态技能怎样实现精准领略视频内容

适才我讲的是我们多模态技能奈何去辅佐用户更好地记录,我们同时也但愿通过一个更好的分享机制,让用户宣布的视频可以或许被更多感乐趣的人看到。这也涉及视频保举内里多模态的一些题目。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

对视频内容的领略着实长短常难的,这个内里我做了两个较量故意思的工作。

第一,我们夸大音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉可能音频,视觉和听觉两种媒体的融合,会是将来一个很是重要的工作。

第二,在家产界做的工作和在学术界做的工作有很大差异,我们有很是多的用户数据,这些用户数据是不在传统多媒体内容研究领域内里的,可是家产界可以很好地操作这些数据,更好地做内容领略。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

给各人举个例子,一个男人演出口技的视频中,假如封锁声音,仅凭画面信息,我们并不知道他是在做什么,也许会认为是在唱歌或唱戏。这声名假如仅仅是通过视觉的话,你也许无法得到真实的信息。我们对天下的领略必然是多模态的领略,而不只仅是视觉的领略。

像这样的视频在快手数据库中有70亿,想要领略这么多的视频内容,必需借助多模态技能。以是我们在这方面也做了很是多的事变,从文本、视觉、听觉角度去做了许多单模态的建模,包罗多模态的综合建模、有序与无序,以及多模态特性之间奈何举办异构的建联,在许多使命内部的分类上也做了改造。

第二点必要夸大的是,像ImageNET等许多的学术界研究内容领略的使命有很是好的标注数据集,可是这个数据集对付家产界来嗣魅照旧太小,且多样性不足。我们平台天天有1.3亿多用户以及高出150亿次的视频播放,这个数据长短常大的。假若有150亿的标注数据,做算法就会有很大的辅佐,可是实际上是不具备的。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效


快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

那奈何将研究说明技能与海量数据更好地做到两者的融合呢?我们通过融合举动数据和内容数据,举办综合建模,同样巨细的人工标注量,操作海量的用户举动数据,可以或许得到比纯内容模子更好的机能,对视频有了一个更好的领略,进而在多媒体内容的领略和说明方面的算法研究有了很是大的盼望,这就使我们在家产界和传统学术界做这个工作时会更有上风。

将来多模态研究的热门:特性表达与特性对齐

总结一下,多模态内容办理的题目内里涉及一些模态的转化,好比奈何通过2D图像驱动3D,奈何通过语音天生文本可能通过文本天生语音,奈何通过视觉驱动音乐。其它一个应用是我们奈何通过融合更多信息来驱动内容的领略,着实都是一个多模态的题目。在学术界有许多研究照旧逗留在单模态,但我小我私人以为将来多模态会成为更有代价的研究偏向。

多模态研究会有两个难点可能说热门:

第一是多模态的特性表达,也就是在多模态研究框架下奈何计划单模态的特性,这是一个很是重要的题目。

第二是多模态特性之间怎样对齐,也就是有没有更好的算法对视觉、听觉和举动的部门举办同一的建模,这是将来的一个热门。

快手科技李岩:多模态技能会改变人机交互方法,会使信息分发更高效

几个总结

第一,多模态将来会一连带来更新的人机交互方法,好比我们适才讲的Animoji技能,着实它带来的是一种可以通过人脸节制手机自动天生Avatar(假造动画)的体验。原本实现这些结果,必要在好莱坞专门设一个殊效室来实现这一点,而此刻平凡用户都能享受这样的技能,以是人机交互会由原本重的、贵的、笨的方法转变为自制的、每小我私人都能参加的并且便捷的方法。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读