加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

服务产品(商品)评论中的产品特征挖掘方法

发布时间:2021-01-20 22:20:02 所属栏目:大数据 来源:网络整理
导读:也是良久没写博客了,前段时刻一向在谋事变,没有做什么实质性的事变。最近事变也定下了,百度流量质量节制部的反作弊算法团队,不算是百度的什么土豪团队,可是99%以上的流量收入都是要从这个团队过一遍的,团队资历气力可见一斑。 好了不吹b了,说嗣魅这个阶
副问题[/!--empirenews.page--]

也是良久没写博客了,前段时刻一向在谋事变,没有做什么实质性的事变。最近事变也定下了,百度流量质量节制部的反作弊算法团队,不算是百度的什么土豪团队,可是99%以上的流量收入都是要从这个团队过一遍的,团队资历气力可见一斑。


好了不吹b了,说嗣魅这个阶段要做的对象:从处事产物的评述中发掘处事产物的特性,不领略的话举个例子:

“这饭馆情形还真是不错,就是菜码有点太大了!”

很明明,加了高亮部门的笔墨蕴含着这个处事产物的两个特性,那么我要做的着实就是把这样的特性找出来,可以归结于数据发掘领域。


这个事做成了之后要做什么我先不说,由于这是我的结业课题,透露太多了也欠好。博客上我只会放处理赏罚的大抵流程和碰着的题目,源码部门果真。


做学术研究嘛必定是要稀有据源的,数据源先生给提供了一个,即Yelp Dataset Challenge中的数据源:https://www.yelp.com/dataset_challenge? 感乐趣的伴侣可以去看看,数据质量很是高,略强于阿里天池。


(二)英文分词、赋词性

我之前做的都是中文分词,看到是英文分词给我开心坏了,空格不都打好的么。赋词性这块就不可了,由于不行能搞个辞书挨个去查,我就用了nltk英文NLP处理赏罚包,这玩意早年没用过,详细代码在最后头放着,注释很是全,本身研究就行了。下面我首要说一说nltk的词性标注,这个标注照旧挺稀疏的,在官网没有找到词性标注表,跟海内的北大几级标注那些又纷歧样,去翻了一下http://blog.csdn.net/heyongluoyao8/article/details/43731743#reply这小我私人的博客,做个归纳,利便往后查找。

1. ? ? CC ? ? ?Coordinating conjunction 毗连词
2. ? ? CD ? ? Cardinal number ?基数词
3. ? ? DT ? ? Determiner ?限制词(如this,that,these,those,such,不定限制词:no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another.
4. ? ? EX ? ? Existential there 存在句
5. ? ? FW ? ? Foreign word 外来词
6. ? ? IN ? ? Preposition or subordinating conjunction 介词或从属连词
7. ? ? JJ ? ? Adjective 形容词或序数词
8. ? ? JJR ? ? Adjective,comparative 形容词较量级
9. ? ? JJS ? ? Adjective,superlative 形容词第一流
10. ? ? LS ? ? List item marker 列表标示
11. ? ? MD ? ? Modal 情态助动词
12. ? ? NN ? ? Noun,singular or mass 常用名词 单数情势
13. ? ? NNS ? ? Noun,plural ?常用名词 复数情势
14. ? ? NNP ? ? Proper noun,singular ?专著名词,单数情势
15. ? ? NNPS ? ? Proper noun,plural ?专著名词,复数情势
16. ? ? PDT ? ? Predeterminer 前位限制词
17. ? ? POS ? ? Possessive ending 全部格竣事词
18. ? ? PRP ? ? Personal pronoun 人称代词
19. ? ? PRP$ ? ? Possessive pronoun 全部格代名词
20. ? ? RB ? ? Adverb 副词
21. ? ? RBR ? ? Adverb,comparative 副词较量级
22. ? ? RBS ? ? Adverb,superlative 副词第一流
23. ? ? RP ? ? Particle 小品词
24. ? ? SYM ? ? Symbol 标记
25. ? ? TO ? ? to 作为介词或不定式名目
26. ? ? UH ? ? Interjection 叹息词
27. ? ? VB ? ? Verb,base form 动词根基情势
28. ? ? VBD ? ? Verb,past tense 动词已往式
29. ? ? VBG ? ? Verb,gerund or present participle 动名词和此刻分词
30. ? ? VBN ? ? Verb,past participle 已往分词
31. ? ? VBP ? ? Verb,non-3rd person singular present 动词非第三人称单数
32. ? ? VBZ ? ? Verb,3rd person singular present 动词第三人称单数
33. ? ? WDT ? ? Wh-determiner 限制词(如相关限制词:whose,which.疑问限制词:what,which,whose.)
34. ? ? WP ? ? ?Wh-pronoun 代词(who whose which)
35. ? ? WP$ ? ? Possessive wh-pronoun 全部格代词
36. ? ? WRB ? ? Wh-adverb ? 疑问代词(how where when)


(二)发掘产物特性(10.13 Baseline)

发掘这些特性就要说明天然说话的布局了,在上面的例子中(分词后):这/ 饭馆/ 情形/ 还/ 真是/ 不错,就是/ 菜码/ 有点/ 太大/ 了!我们可以很清晰的发明,表特性的词每每都是名词(NN/NNS),而这些特性的周围一定跟从一个形容词(也也许连带一个或几个水平副词),看了一下Yelp的评述数据也确实云云。按照这个线索就可以编码了。

编码的时辰要留意一个题目就是先找形容词(JJ/JJR/JJS)再找特性,可是表水平的这个形容词每每不在这个特性的旁边,那么久要配置一个滑窗,在滑窗范畴内探求这个特性(我暂且配置的是滑窗=5),这种步伐小我私人感受简朴粗暴,可是弱点是只能找单个词的特性,无法探求一类短语特性(好比dish size),这个题目在往后的试探中逐步办理。此刻先不着急,先搞个baseline看看结果怎么样再说,我把餐饮行业的feature都拿到了,一共92326个,feature呈现次数在1000以下的我以为是稀少特性,直接甩掉,剩下494个特性,我取前50个展示一下吧:

('food',203900)
('place',126807)
('service',110508)
('time',98767)
('restaurant',47986)
('staff',41384)
('menu',36441)
('experience',35822)
('meal',32812)
('thing',32057)
('night',30665)
('sauce',28831)
('bit',28180)
('pizza',26407)
('order',24406)
('bar',24077)
('price',23429)
('chicken',22599)
('bread',21457)
('hour',21134)
('dish',20586)
('side',20291)
('way',20077)
('lunch',19849)
('flavor',19529)
('dinner',19046)
('day',18674)
('server',18649)
('salad',18648)
('rice',18287)
('nothing',17406)
('something',17184)
('selection',16780)
('quality',16727)
('everything',15665)
('meat',15177)
('table',15061)
('location',15022)
('atmosphere',14962)
('cheese',14741)
('steak',14428)
('sushi',14326)
('area',14032)
('taste',13685)
('breakfast',13576)
('visit',13576)
('waitress',12394)
('soup',12300)
('sandwich',12280)
('beer',12261)

小我私人感受这种baseline算法还长短常靠谱的,我们能看到的都是真真切切的特性,没有噪音。

(三)有什么改造的处所

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读