【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服
看一些模子的比拟功效。 横轴是Recall纵轴是precision,有好几个模子举办比拟看哪个是最好的。内里有个单变量模子,拿出很简朴的法则试验一下,看看用单一变量的结果,模子做的太伟大,做到最后假如连单变量都不如那就是建模失败了。 首要目标是设定差异的基准值,有一些基准值,才会有模子优化偏向。再看其他的,好几层嵌套的模式,第二层模子,第三层模子,最右边就是结果最佳的,最后直接上线的会用结果最佳的模子。 ??? 另一个比拟功效,看一下用GMB+SVD++衍生新变量发生的一些结果。横轴是各个模子,纵轴是精确率,它有一个隐含前提,Recall都便是20%。 从左到右,左边是传统的一些模子,好比说LASSO,KNN,LR,越往中间用的是较量常用的集成要领,再往下就是随机丛林,GBDT。再往右边也许会更伟大,差异的模子组合实习出来的功效。 结果最好的是GBM+SVD++。 SVD++,起的这个浸染。进修出时刻和房型,差异的房型按照他汗青的满房的走势可以进修出来哪些房型走势很沟通的,以是用了这种LatentFactor发掘要领,去发明哪类房型它的走势是属于这内里哪种环境.。 ?? 再看Entropy转换的结果。横轴是recall,纵轴是Precision,往下看recall越高,Precision越低,结果不是很明明。 ??? 在现实应用进程中,好比分类模子,只会体谅猜测为1的precision的 recall。 ??? 履历总结。 ??? 之前遇到的一个较量风趣的题目。起首实习出来一个模子,这个模子线下精确性较量好。 ??? 到了线上,其时有一些体系架构的题目,它对有些变量时效性做了阉割,耽误两个小时。在线上测试发明recall降落很是明明,接着做了二次的改革,把当初阉割的变量从耽误2小时酿成及时,模子结果又晋升上去。 ??? 此刻不管什么模子,用xgboost可能GBDT实习处一个基准值,以这个基准值做后续优化。偶然辰有也许你一连优化后的模子比这单一模子的晋升幅度不明明。 ?? 一向夸大数据校验,数据校验真的很是重要,在Feature上要花许多的时刻,像此刻有些角逐,开放性的角逐,会用十到二十个可能一百个模子做一些融合,这个伟大度很是高,在现实应用上,着实是不怎么会用这种要领。 ??? (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |