副问题[/!--empirenews.page--]
也是良久没写博客了,前段时刻一向在谋事变,没有做什么实质性的事变。最近事变也定下了,百度流量质量节制部的反作弊算法团队,不算是百度的什么土豪团队,可是99%以上的流量收入都是要从这个团队过一遍的,团队资历气力可见一斑。
好了不吹b了,说嗣魅这个阶段要做的对象:从处事产物的评述中发掘处事产物的特性,不领略的话举个例子:
“这饭馆情形还真是不错,就是菜码有点太大了!”
很明明,加了高亮部门的笔墨蕴含着这个处事产物的两个特性,那么我要做的着实就是把这样的特性找出来,可以归结于数据发掘领域。
这个事做成了之后要做什么我先不说,由于这是我的结业课题,透露太多了也欠好。博客上我只会放处理赏罚的大抵流程和碰着的题目,源码部门果真。
做学术研究嘛必定是要稀有据源的,数据源先生给提供了一个,即Yelp Dataset Challenge中的数据源:https://www.yelp.com/dataset_challenge? 感乐趣的伴侣可以去看看,数据质量很是高,略强于阿里天池。
(二)英文分词、赋词性
我之前做的都是中文分词,看到是英文分词给我开心坏了,空格不都打好的么。赋词性这块就不可了,由于不行能搞个辞书挨个去查,我就用了nltk英文NLP处理赏罚包,这玩意早年没用过,详细代码在最后头放着,注释很是全,本身研究就行了。下面我首要说一说nltk的词性标注,这个标注照旧挺稀疏的,在官网没有找到词性标注表,跟海内的北大几级标注那些又纷歧样,去翻了一下http://blog.csdn.net/heyongluoyao8/article/details/43731743#reply这小我私人的博客,做个归纳,利便往后查找。
1. ? ? CC ? ? ?Coordinating conjunction 毗连词 2. ? ? CD ? ? Cardinal number ?基数词 3. ? ? DT ? ? Determiner ?限制词(如this,that,these,those,such,不定限制词:no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another. 4. ? ? EX ? ? Existential there 存在句 5. ? ? FW ? ? Foreign word 外来词 6. ? ? IN ? ? Preposition or subordinating conjunction 介词或从属连词 7. ? ? JJ ? ? Adjective 形容词或序数词 8. ? ? JJR ? ? Adjective,comparative 形容词较量级 9. ? ? JJS ? ? Adjective,superlative 形容词第一流 10. ? ? LS ? ? List item marker 列表标示 11. ? ? MD ? ? Modal 情态助动词 12. ? ? NN ? ? Noun,singular or mass 常用名词 单数情势 13. ? ? NNS ? ? Noun,plural ?常用名词 复数情势 14. ? ? NNP ? ? Proper noun,singular ?专著名词,单数情势 15. ? ? NNPS ? ? Proper noun,plural ?专著名词,复数情势 16. ? ? PDT ? ? Predeterminer 前位限制词 17. ? ? POS ? ? Possessive ending 全部格竣事词 18. ? ? PRP ? ? Personal pronoun 人称代词 19. ? ? PRP$ ? ? Possessive pronoun 全部格代名词 20. ? ? RB ? ? Adverb 副词 21. ? ? RBR ? ? Adverb,comparative 副词较量级 22. ? ? RBS ? ? Adverb,superlative 副词第一流 23. ? ? RP ? ? Particle 小品词 24. ? ? SYM ? ? Symbol 标记 25. ? ? TO ? ? to 作为介词或不定式名目 26. ? ? UH ? ? Interjection 叹息词 27. ? ? VB ? ? Verb,base form 动词根基情势 28. ? ? VBD ? ? Verb,past tense 动词已往式 29. ? ? VBG ? ? Verb,gerund or present participle 动名词和此刻分词 30. ? ? VBN ? ? Verb,past participle 已往分词 31. ? ? VBP ? ? Verb,non-3rd person singular present 动词非第三人称单数 32. ? ? VBZ ? ? Verb,3rd person singular present 动词第三人称单数 33. ? ? WDT ? ? Wh-determiner 限制词(如相关限制词:whose,which.疑问限制词:what,which,whose.) 34. ? ? WP ? ? ?Wh-pronoun 代词(who whose which) 35. ? ? WP$ ? ? Possessive wh-pronoun 全部格代词 36. ? ? WRB ? ? Wh-adverb ? 疑问代词(how where when)
(二)发掘产物特性(10.13 Baseline)
发掘这些特性就要说明天然说话的布局了,在上面的例子中(分词后):这/ 饭馆/ 情形/ 还/ 真是/ 不错,就是/ 菜码/ 有点/ 太大/ 了!我们可以很清晰的发明,表特性的词每每都是名词(NN/NNS),而这些特性的周围一定跟从一个形容词(也也许连带一个或几个水平副词),看了一下Yelp的评述数据也确实云云。按照这个线索就可以编码了。
编码的时辰要留意一个题目就是先找形容词(JJ/JJR/JJS)再找特性,可是表水平的这个形容词每每不在这个特性的旁边,那么久要配置一个滑窗,在滑窗范畴内探求这个特性(我暂且配置的是滑窗=5),这种步伐小我私人感受简朴粗暴,可是弱点是只能找单个词的特性,无法探求一类短语特性(好比dish size),这个题目在往后的试探中逐步办理。此刻先不着急,先搞个baseline看看结果怎么样再说,我把餐饮行业的feature都拿到了,一共92326个,feature呈现次数在1000以下的我以为是稀少特性,直接甩掉,剩下494个特性,我取前50个展示一下吧:
('food',203900)
('place',126807)
('service',110508)
('time',98767)
('restaurant',47986)
('staff',41384)
('menu',36441)
('experience',35822)
('meal',32812)
('thing',32057)
('night',30665)
('sauce',28831)
('bit',28180)
('pizza',26407)
('order',24406)
('bar',24077)
('price',23429)
('chicken',22599)
('bread',21457)
('hour',21134)
('dish',20586)
('side',20291)
('way',20077)
('lunch',19849)
('flavor',19529)
('dinner',19046)
('day',18674)
('server',18649)
('salad',18648)
('rice',18287)
('nothing',17406)
('something',17184)
('selection',16780)
('quality',16727)
('everything',15665)
('meat',15177)
('table',15061)
('location',15022)
('atmosphere',14962)
('cheese',14741)
('steak',14428)
('sushi',14326)
('area',14032)
('taste',13685)
('breakfast',13576)
('visit',13576)
('waitress',12394)
('soup',12300)
('sandwich',12280)
('beer',12261)
小我私人感受这种baseline算法还长短常靠谱的,我们能看到的都是真真切切的特性,没有噪音。
(三)有什么改造的处所
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|