今日头条算法原理(全文)
另一方面,文本内容的标签可以直接辅佐保举特性,好比魅族的内容可以保举给存眷魅族的用户,这是用户标签的匹配。假如某段时刻保举主频道结果不抱负,呈现保举窄化,用户会发明到详细的频道保举(如科技、体育、娱乐、军事等)中阅读后,再回主feed,保举结果会更好。由于整个模子是买通的,子频道试探空间较小,更轻易满意用户需求。只通过单一信道反馈进步保举精确率难度会较量大,子频道做的好很重要。而这也必要好的内容说明。 上图是今天头条的一个现实文本case。可以看到,这篇文章有分类、要害词、topic、实体词等文本特性。虽然不是没有文本特性,保举体系就不能事变,保举体系最早期应用在Amazon,乃至沃尔玛期间就有,包罗Netfilx做视频保举也没有文本特性直接协同过滤保举。但对资讯类产物而言,大部门是斲丧当天内容,没有文本特性新内容冷启动很是坚苦,协同类特性无法办理文章冷启动题目。 今天头条保举体系首要抽取的文本特性包罗以下几类。起首是语义标签类特性,显式为文章打上语义标签。这部门标签是由人界说的特性,每个标签有明晰的意义,标签系统是预界说的。另外尚有隐式语义特性,首要是topic特性和要害词特性,个中topic特性是对付词概率漫衍的描写,无明晰意义;而要害词特性会基于一些同一特性描写,无明晰荟萃。 其它文内情似度特性也很是重要。在头条,曾经用户反馈最大的题目之一就是为什么总保举一再的内容。这个题目的难点在于,每小我私人对一再的界说纷歧样。举个例子,有人认为这篇讲皇马和巴萨的文章,昨天已经看过相同内容,本日还嗣魅这两个队那就是一再。但对付一个重度球迷而言,尤其是巴萨的球迷,恨不得全部报道都看一遍。办理这一题目必要按照判定相似文章的主题、行文、主体等内容,按照这些特性做线上计策。 同样,尚偶然空特性,说明内容的产生所在以实时效性。好交锋汉限行的工作推给北京用户也许就没故意义。最后还要思量质量相干特性,判定内容是否低俗,色情,是否是软文,鸡汤? 上图是头条语义标签的特性和行使场景。他们之间层级差异,要求差异。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |