?专访 | 今日头条2016 Byte Cup大赛实战经验分享:要充分挖掘模
以下是专访内容 呆板之心:角逐前你们对本身有什么预期? ? 郭正肖:我是属于随着我的队友一路介入角逐。我本身也算是半路出家,气力并不强。我周围的同窗都在看这方面的书,没有实践,但我的伴侣汇报我也许介入角逐会更有甜头。其时我就想介入什么样的角逐较量好?我发明这次角逐进度拉的较量长,从 8 月到 11 月一共是 3 个多月,时刻一长我就能对这个角逐有更多的相识,学到更多的对象。虽然我也是抱有一些小理想的,能拿个奖什么的。在角逐进程中,我的两个队友给了我很大的辅佐。 ? 庞亮:我其时看了一下这个角逐的数据,与保举体系相干的。着实与我的规模不是很相干。可是举行方给的数据是文本数据也是个匹配题目。以是最初的设法就是试一下我本身的模子能不能在角逐上 work 一下。我的模子就是谁人 Match-SRNN。然后在做的进程中对这个数据有了更多的相识后,又试了一下其他的模子,由于要做一下 Baseline 和 SRNN 的较量。 ? 钱乾:我一开始是随着我伴侣一路来做的,他想用 deep learning 的要领去做到。一开始我也是想能不能不消 deep learning 的要领也能把分数做上去。做着做着就越来越对 FM 这个模子感乐趣,最后用本身的代码去实现了一个本身写的 FM 模子。也算是一个进修的进程和一个验证的进程。然后照旧要测试一下将图模子这种对象用在保举规模上是否可行?那么最终验证出来也是可以接管的。这个根基上也是我的一个初志吧 ? 呆板之心:那你(钱乾)对 FM 这个模子在这次角逐中的示意满足吗? ? 钱乾:我其后比拟了一下本身写的 FM 与 C++写的 FM,在优化往后可以或许到达与本来用 C++写的 FM 能到达同样的一个精度吧。 ? 呆板之心:在介入角逐的三四个月的进程中,有没有一个要害的节点让你们认为本身的模子有了很大的晋升,有信念拿下这个角逐? ? 钱乾:有两次吧。第一次也许就是实行行使了 neighbor 的一些数据。而且通过说明之后加了一些 IDF 的一些加权,这个给我的模子带来了一个很大的晋升。这是第一个要害点。 ? 第二个要害点是,在我回收 deepwalk 这个算法构建特性往后行使示范子,它也给我的模子带来的晋升。 ? 庞亮:我一开始是实现了一个 baseline,一个最基本的矩阵解析模子。发明结果挺不错,根基上可以进前 50 了。后头有晋升的处所也是和他一样,加了一些 neighbor 的信息,就是一些 implicit 的 feedback,再加上双方的 implicit feedback,就是这样一点点晋升上去的。在精简模子的方面用上一些非对称思绪,让模子越发鲁棒。尚有原本的 SVD++是差池称一种布局,然后就想怎么能把它酿成一个对称的一个布局。 ? 呆板之心:ASVD++这个算法是你们本身提出来的吗? ? 庞亮:是的,但不是这一次角逐提出来的。之前在百度的保举大赛上就行使过,发明它很有结果。这一次是把一部门的 ID 去掉之后,这是新的。 ? 用完 blending 之后,我们又实行了此外模子,想看看它结果怎么样,不只仅是为了刷分。较量每一个算法的是非。 ? 呆板之心:这次角逐中有没有对本身不太满足的处所? ? 庞亮:也许是数据上吧,潜匿掉了一些词的信息,固然在数据量上的 entry 许多,词表也很大,许多时辰我们没法用上我们已经实习好的 word-embeding 信息,这样就导致我直接拿它来用的话会有一些坚苦,机能上会有丧失。可是我信托在文本上发掘的信息是很有效的。但这次角逐都是用 ID 拿出来的,我们没法 pretrain 这些 ID 的 Word ? 钱乾:我们就用了一张表,也是没有效上。 (笔者注:据主办方先容,所给数据原来应该是一个天然说话,可是首要思量到有一些海外的参赛选手对中文并不认识,把笔墨举办 ID 化的处理赏罚,起首举办分词,每个词会有一个 ID,这是独一标识,对每一字也给了一个 VID,用这种情势作为题目的表征) ? 庞亮:我们都是但愿能把这些信息用全,每个信息都能带来一点晋升,然后比拟一下每个信息的晋升。这一点较量遗憾。 ? 呆板之心你们的参赛履历是奈何的? ? 郝磊:我介入的较量少,也就三四次吧。 ? 钱乾:我一样平常就介入 kaggle 吧,有六七次的履历。 ? 呆板之心:能分享一些角逐履历吗? (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |