加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

如何利用图像识别、语音识别、文本挖掘做好鉴黄?

发布时间:2020-12-31 05:29:32 所属栏目:大数据 来源:网络整理
导读:人工智能鉴黄市场竞争愈发剧烈,今朝图普科技、阿里绿网、腾讯万象优图等团队已占有大量市场份额,在此情形下,不少公司试图通过提供更全面的处事从这片红海平分一杯羹。 那么更全面的定制处事表此刻哪些处所?雷锋网(公家号:雷锋网)专程采访了极限元 CEO

人工智能鉴黄市场竞争愈发剧烈,今朝图普科技、阿里绿网、腾讯万象优图等团队已占有大量市场份额,在此情形下,不少公司试图通过提供更全面的处事从这片红海平分一杯羹。

那么更全面的定制处事表此刻哪些处所?雷锋网(公家号:雷锋网)专程采访了极限元 CEO 雷臻,雷臻从图像辨认、语音辨认、文本发掘三个维度向雷锋网讲授 AI 鉴黄,同时对一些工程细节举办叙述。

直播鉴黄一样平常从哪些方面举办判断?

凡是环境下,直播鉴黄通过视频截图、图像辨认、语音技审、弹幕监控、要害字抽取等手段智能辨认色情内容。在向客户正式提供图像辨认处事前,会先约请直播平台用户举办体验测试,网络一些直播平台专属特性数据,好比差异的直播配景、情形光泽强度、话题内容等,举办定制化的实习模子,差异的直播平台将得到定制化的专属图像辨认处事。

个中视频直播内容的检察判断可以从以下几个步调:辨认图像中是否存在人物体征,统计人数;辨认图像中人物的性别、年数区间;辨认人物的肤色、肢体器官袒露珠平;辨认人物的肢体外观,说明举措举动;除了图像辨认之外,还可以从音频信息中提取要害特性,判定是否存在敏感信息;及时说明弹幕文本内容,判定当前视频是否存在违规举动,动态调理图像收罗频率。

在图像辨认方面,个中每分钟视频收罗要害帧的频率可以由客户设定,从1秒到几十秒均可。譬喻可以默认5秒收罗一次要害帧用于辨认,也可以在呈现疑似告警时动态调理收罗频率,加速至每秒一张。

您刚提到音频要害特性提取,这个可以深入讲讲吗?

音频说明首要有以下几个方面:

  • 通过声纹辨认技能,判定当前直播间的主播是否为注册主播本人,对主播身份举办辨认。

  • 对主播的语音内容举办要害词检索,是否存在禁语、敏感词。

  • 对特定的持续语音数据段举办辨认,是否存在不良信息。

  • 对口播告白的播出频次举办统计,说明告白投放结果。

不外视频、音频双通道检测的方案由用户来决定,秀场直播凡是用图像检测就可以满意绝大部门需求,音频检测也许更合用于语音内容为主的直播平台。两者团结起来会大大进步辨认精确率、低落误报率,但本钱也会响应进步,以是用户可以按照营业需求举办选择。

今朝的精确率、误报率、召回率或许是几多?是否会举办人工复审?

今朝直播平台涉黄图像检测的精确率高达99%以上,误报率低于1%,必要客户举办人工复核的比例不高出3%。凡是环境下不提供人工复审的处事,可是会对疑似的图像举办标注并提示用户举办人工复核。人工复核后的数据会被网络起来举办迭代实习,这样可以不绝晋升识此外精确率。

直播的及时性、对付呆板的图片辨认处理赏罚速率要求出格高,对付呆板的计较手段会不会出格高?回收什么样的方法举办处理赏罚?

收集视频直播及时性强,对处事端图像辨认处理赏罚的速率要求出格高,除了对带宽有较高的要求外,还必要辨认处事器拥有强盛的GPU运算手段,尤其是应用深度呆板进修算法举办模子实习阶段,强盛的GPU集群处事器是不行或缺的,并基于全链接层的特征去除了对实习图像巨细的限定,快速晋升算法处理赏罚速率。另外在收罗视频图片时也可以回收动态调理收罗频率的步伐,凡是环境下几秒一帧,呈现敏感信息后加速收罗频率,可以更实时的辨认涉黄信息并提出告警。

模子逊??需的数据的量有多大?一样平常什么缘故起因会影晌判断精确率?

以极限元为例,基本数据集有几万万张图片,另外天天还会追加两万张种种正、负样本图片,用于迭代实习,不绝微调优化辨认精确率。每周会举办一次基本模子实习,每1-2天会举办一次增量模子迭代实习。

至于判断精确率影响层面,首要照旧数据量的匮乏,样本对应用场景的包围不全面导致实习出的模子存在误报、漏报可能辨认错误,跟着深度呆板进修算法的日趋成熟,数据来历的多样性、专业性反而成为模子结构的重中之重。

另外,主播决心举办一些滋扰检测的本领,好比遮挡敏感部位、画中画等等,也会必然水平上影响到呆板的辨认判定。

呆板能不能自动处理赏罚:屏障、删除、禁播等?

涉黄图片检测处事陈设在云端,自己没有收集路径可以打仗到用户的直播间打点体系,因此无法自动屏障、删除、停息直播间的勾当。可是假如用户选择私有云的陈设方法,并授权辨认处事器可以会见直播间打点体系,那么对涉黄直播间的删、停等操纵是可以实现的。

智能鉴黄相对付人工鉴黄、本钱降落几多?

以一家月直播10万小时的中小直播平台为例,假如回收传统的内容考核技能,100人的内容打点团队每月所耗费的本钱在80万上下。假如借助人工智能举办内容监控,人力投入可以减少到10人阁下,综合投入不外10万到20万之间,将大大低落人力本钱和打点用度。另外尚有因此而节减的监督装备费、办公园地费等等。

色情和非色情的边界怎么掌握、拿捏?

起首,在成立这样一个分类模子时,会有人工对图像大数据举办标注,存在必然主观判定偏差,但也在公共领略的范畴内。辨认功效除了色情和正常外,还存在一个疑似可能称之为性感的种别,这些都是按照呆板辨认后的近似值举办匹配。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读