假如多的话,那只能先调一调主题个数,然后LDA内里有些个参数可以调调(算法工程师 的代价地址啊)
尚有一条路子就是把输入的数据尽也许的洗濯干净,把无用的杂质去掉(算法工程师 必备手艺耐性和仔细 )
以是,差异的模子对付差异的场景是很重要的,按照你的场景选择吻合的模子才气到达吻合的结果。8. 写在后头的话
这篇文章只是一个文内情似性的最最根基的文章,可以最直观的相识一下TFIDF模子和LDA模子,同时,也行使了今朝最热的呆板进修 技能哦。着实,像LDA,以及word2vec这种模子,已经是被数学抽象得很强的模子了,和现实场景根基上已经离开了,已经完全数学化了 ,以是着实不必然要用在文本处理赏罚上,在流量说明,用户举动说明上一样有效,这就是算法工程师 要想的工作,一个好的算法怎样用在现有的场景中。试想一下,假如我们想给我们的用户分个类,看看哪些用户乐趣较量相似。我们着实可以这么来做:
起首,假如我们有一堆用户的赏识举动数据,每一条数据记录了用户点击某个链接,可能点击了某个按钮。
把这些赏识举动凭证用户维度举办归并,那么新数据中每一条数据就是一个用户的操纵记录,按次序就是他几点几分有什么举动。相同于用户A :[赏识了a页面,点击了b按钮,赏识了c页面....]
好,假如我们施展算法工程师 的必备手艺之一----想象力 ,那么我们把每个用户的举动当成一篇文章,每个举动数据当成一个词语,然后行使LDA .....呵呵这样算出来的主题,是不是就是用户的种别呢?有相似举动数据的用户会呈此刻沟通的主题下,那么这样就把这些用户分类了,那么是不是可以领略为同样类此外下的用户有着相似的喜爱呢?假如你认为可行,可以拿你公司的用户数据试试,看看结果好欠好:)9. 后头的后头的话
最后,全部代码在github上,点击原文可以看获得,代码相等简朴,整个不高出200行,焦点的就是我上面列的那些,代码中也有word2vec的代码和行使,这篇文章就没提了,其它,爬取的文章就不放上来了,太大了,假如各人想要语料本身玩,可以上wiki百科,他们开放了他们的全部数据给全天下做语料说明,个中有中文的,地点是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,但维基上中文语料并不多,中文语料多的是百度百科,但看看百度百科,呵呵,不单不开放,防爬虫跟防贼一样,呵呵,不外我也给各人个地点,100G的百度百科原始页面:http://pan.baidu.com/s/1i3wvfil,讨论暗码:neqs,由亚洲第二爬虫天王梁斌penny 交情提供。好了,本日的文章有点长,就到这了,后头会把算法部门放一放,最近事变太忙,等这一段竣事了,我会再说说算法部门,由于此刻事变中会有一些较量好玩的算法要用,接下来的文章会首要感谢体系架构方面的对象了,其它我本身的谁人搜刮引擎今朝太忙没时刻整,也要等一小段时刻了,欠盛意思:)但安心,不会虎头蛇尾啦。PS:题图是wiki百科,感激他们无私的提供语料,趁便BS一下百度百科的关闭。
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|