加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

保举体系技能之文内情似性计较(三)

发布时间:2021-03-07 09:09:53 所属栏目:大数据 来源:网络整理
导读:本日这篇也较量长,但中间有部门是代码,7,8,9最后三节的信息我以为较为有效。 前面说了两篇了,保举体系技能之文内情似性计较(一)和保举体系技能 --- 文内情似性计较(二)别离先容了 TFIDF 和向量空间的相干对象,然后先容了 主题模子 ,这一篇我们就
副问题[/!--empirenews.page--]

本日这篇也较量长,但中间有部门是代码,7,8,9最后三节的信息我以为较为有效。前面说了两篇了,保举体系技能之文内情似性计较(一)和保举体系技能 --- 文内情似性计较(二)别离先容了TFIDF和向量空间的相干对象,然后先容了主题模子,这一篇我们就来试试这两个对象。词向量就不在这篇试了,词向量和这两个相关不大,欠好比拟,不外我最后也给出了代码。

0. 器材筹备

工欲善其事,必先利其器,那么我们先来利其器,这里我们行使的是python的gensim器材包,地点是:https://radimrehurek.com/gensim/index.html,这个器材包很强盛,我就纷歧一先容了,横竖我们必要的成果都有,并且我们用得很简朴,它还可以漫衍式陈设,感乐趣可以去官网看详细先容。为什么不本身写?这个题目....呵呵.....呵呵....我写不出来.....至于安装,必要先安装python 2.6以上(空话),NumPy 1.3以上,SciPy 0.7以上,后两个是python的科学计较的包。easy_install很轻易搞定,这里就不空话了,windows上安装也许有点坚苦,但我好久没用过windows了,我电脑上安装很轻松,三四个呼吁搞定,可以去看gensim的官方文档,上面也有怎么安装,假如你装都装不上,那就google,百度,总有办理步伐。除了gensim,尚有个分词的包必要装一下,就是jieba分词,这个也很轻易装。1. 数据筹备

数据筹备然则个技能活,我的职业操守很高,没有效公司的数据,那只能本身找数据了,假如直接找网上的语料,显得太Low了。于是我本身爬了一些数据。起首,我对准了今朝一个技能网站,然后对准了一个汽车网站,于是开始爬数据,本身写了个爬虫开始爬数据,恩,我的爬虫我认为还可以,调治器+爬取器构成,爬取器插件话,可以行使恣意说话做编写,乃至可以直接对接chrome爬取纯JS单页面网站爬取,也支持署理池,假如各人感乐趣我也可以说说爬虫相干的对象,漫衍式的哦,可以任意加呆板增进爬取手段。好了,爬了两个网站,半途各类坑就不表了,可以开始干活了,爬两个范例的网站是为了声名后头LDA主题模子,各人就有个熟悉了。2. 数据整理

数据趴下来后,要做的就是数据洗濯事变了,我之前有一篇搞呆板进修要哪些手艺说了,数据的整理是一个算法工程师的必备手艺,假如没有好的数据,算法怎么好都没用。拿到数据往后,写个剧本

  • 起首把问题,作者,时刻之类的提取出来,通过正则也好,xpath也好,都很轻易把这些对象提取出来。

  • (编辑:湖南网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读