今日头条算法原理(全文)
用户标签发掘总体较量简朴,首要照旧方才提到的工程挑衅。头条用户标签第一版是批量计较框架,流程较量简朴,天天抽取昨天的日活用户已往两个月的举措数据,在Hadoop集群上批量计较功效。 但题目在于,跟着用户高速增添,乐趣模子种类和其他批量处理赏罚使命都在增进,涉及到的计较劲太大。 2014 年,批量处理赏罚使命几百万用户标签更新的Hadoop使命,当天完成已经开始始末。集群计较资源求助很轻易影响其余事变,齐集写入漫衍式存储体系的压力也开始增大,而且用户乐趣标签更新耽误越来越高。 面临这些挑衅。 2014 年底今天头条上线了用户标签Storm集群流式计较体系。改成流式之后,只要有效户举措更新就更新标签,CPU价钱较量小,可以节减80%的CPU时刻,大大低落了计较资源开销。同时,只需几十台呆板就可以支撑天天数万万用户的乐趣模子更新,而且特性更新速率很是快,根基可以做到准及时。这套体系从上线一向行使至今。 虽然,我们也发明并非全部用户标签都必要流式体系。像用户的性别、年数、常驻所在这些信息,不必要及时一再计较,就如故保存daily更新。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |