加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服

发布时间:2021-05-14 12:56:12 所属栏目:大数据 来源:网络整理
导读:【 本文系互联网技能同盟(ITA1024)原创首发,转载或节选内容前需获授权(授权后一周往后可以转载),且必需在正文前注明:本文转自互联网技能同盟(ITA1024)技能分享实录,微信公家号:ita1024k 】 潘鹏举 携程 旅馆研发BI司理 互联网技能同盟 ITA1024讲师

假如你的模子已经通过了起源的方针,也许会开始开拓上线的流程,会开拓API,开拓完之后校验数据对差池,然后再放在线上空跑,空跑是手印子已经在线上嵌入了,会设置一个开关,开关开启节制模子对现有流程不影响,记log,通过log说明这个模子在线上的真实结果,首要目标是做风控。空跑之后上线,做模子监控,这是一整套的流程。

? ?

对付器材,首要是用R和python,会有好几个陈设有R和Python的处事器,在这上面实习模子。


【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服

这是Feature计划的例子,有房猜测分差异的维度,着实首要是加了差异维度的先验概率,差异时候预订可确认率是纷歧样的,白日可确认是较量高的,到了晚上确认就较量差。

???

旅馆维度。

??

求助度维度,求助度的界说是,旅馆有50个屋子,有40个封锁掉了,只剩下20%的房间,那么这个房间的求助度是80%。

???

房型维度跟旅馆维度差不多,颗粒度纷歧样,房型维度首要刻画库存的现实耗损环境。

???

【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服


模子实习的履历总结。

???

在模子实习内里特性工程、筹备数据花许多时刻。这列了一些常用的要领:

???

  • 缺失值猜测,对缺失值用一个模子举办猜测,弥补缺失值。对重要变量的缺失值做猜测,它可以晋升模子的结果。

  • ? 百分比调动,规避分母呈现0的影响。这边列了一个小能力,A除以B,B是0,就会呈现NA、NAN非常值,会在分母里加一个很小的数字,好比加0.000几,这样就不会呈现NA、NAN等非常数值,实习模子会较量利便。对付种别变量列了三种常用处理赏罚要领。


  • OneHotEncode。

  • WOE在风控上用得较量多,可以实习处方针变量和猜测变量之间的权重是几多。对较量OneHotEncode,WOE只有一个变量功效。

  • Impactcoding,跟WOE思绪是一样的,只是调动公式不太一样。

???

【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服

数据发掘、呆板进修城市提到归一化。


在这边的营业模子中较量罕用到归一化,归一化就是把量看成了一些scale,会用最大最小值,假如放在线上,必要把最大最小值存储下来。最首要的题目,也许线下实习数据最大最小值差距是较量明明,会导致呈现猜测毛病。其它今朝行使的集成呆板进修对量纲不敏感。

???

【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服

衍生新变量。

??

  • Entropy转换,用了它对模子的结果举办晋升。思绪针对room对多个变量的不确定性举办权衡。

  • GBDT衍生新变量。思绪,在每个调查值在节点上的功效作feature。

  • SVD++衍生新变量,用这个方法发明featuer,隐含的因子用它来进修,有一个模子内里用到。

???

【PPT+实录】携程旅馆研发部BI司理潘鹏举:呆板进修在OTA旅馆服

把实习是分为两倍,50%做第一层,就是T1,左边叫第一层模子。把这个对象feature实习出第二层模子,用最终的模子猜测test功效。


有些人实习很少本成分training和test,把它的功效直接提交,看提交功效后的怎样。

???

实习模子,一样平常城市留一个test荟萃,在线下实习模子的时辰,也许会实行许多种模子,要比拟出模子是否有差别,就可以用统一个test去猜测一下,这样就较量利便比拟出差异模子之间的差别。

???

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读