加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

我爬取说明美团网,原本北京上海Top10美食是它们

发布时间:2018-12-14 11:40:53 所属栏目:教程 来源:Kying
导读:数据爬取三步曲之前线有坑 事变需求必要收罗OTA网站的美食数据,某个都市的饭馆范例环境等。对付老饕来嗣魅这不算个事。。。然而最后的功效是午时晚饭都没偶然刻去吃了。。。环境如下 Chrome F12直接定位get哀求,response的功效是json,研究下get的参数发明
副问题[/!--empirenews.page--]

数据爬取三步曲之前线有坑

事变需求必要收罗OTA网站的美食数据,某个都市的饭馆范例环境等。对付老饕来嗣魅这不算个事。。。然而最后的功效是午时晚饭都没偶然刻去吃了。。。环境如下

我爬取说明美团网,原本北京上海Top10美食是它们

Chrome F12直接定位get哀求,response的功效是json,研究下get的参数发明有个稀疏的参数token?!

我爬取说明美团网,原本北京上海Top10美食是它们

先不管他直接修改参数翻页哀求数据!!!

我爬取说明美团网,原本北京上海Top10美食是它们

数据爬取三步曲之开始填坑

题目来了!纠结半天后发明这个token是偶然效的,并且是js天生的。。。这也不是题目,get哀求行不通我们尚有selenuim。悲催的是美团真的是大厂直接封杀selenuim

我爬取说明美团网,原本北京上海Top10美食是它们

数据爬取三步曲之将坑填平

又回到原点。没步伐只能从token动手了颠末一番查找发明一个js文件

我爬取说明美团网,,原本北京上海Top10美食是它们

嗯。。。好吧继承,由于之前没有效python直接挪用js,百度一番发明pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一向不能正常行使,PyV8没有题目。只是PyV8安装进程太心伤

空话不多说直接上代码:

我爬取说明美团网,原本北京上海Top10美食是它们

我把js文件存放到当地python直接行使PyV8直接理会执行token的js变乱

我爬取说明美团网,原本北京上海Top10美食是它们

措施自动天生token,火烧眉毛接续理会json数据入库

我爬取说明美团网,原本北京上海Top10美食是它们

我爬取说明美团网,原本北京上海Top10美食是它们

测试完成先抓取北京和上海数据举办数据可视化

在统计师发明美团照旧对数据经行了限定每个范例的餐饮场合最多表现每页32个一共32页。也就是32*32=1024个

我爬取说明美团网,原本北京上海Top10美食是它们

数据可视化

北京、上海美食种种型数目占比环境

我爬取说明美团网,原本北京上海Top10美食是它们

我爬取说明美团网,原本北京上海Top10美食是它们

看以看出川湘、烧烤烤肉和西餐在两地的数目占比都是最多的。撸串、麻小公然不分南北。

我爬取说明美团网,原本北京上海Top10美食是它们

数据中有每家店的品论数目我们可以从中说明出每一类美食的总评述环境来展示受接待环境,因展示结果我们只展示top10

北京、上海市top10美食环境

我爬取说明美团网,原本北京上海Top10美食是它们

我爬取说明美团网,原本北京上海Top10美食是它们
北京和上海两地暖锅荣登榜首哈

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读