副问题[/!--empirenews.page--]
常常听到别人说“天下那么大,我想去看看”。在有机遇走出国门之前,照旧先把故国走一圈吧。都知道中国地广人不稀,旅游资源很是富厚,古文化遗址、抗战遗址、山水、河道等等,在选择目标地的时辰,不少人城市很是纠结,不知道去哪更好。为了往后不再纠结,笔者规划深度理会世界的旅游景点漫衍。
以下进入正题。
01、数据抓取
去哪儿网有着很是富厚的旅游信息,不单险些涵盖了世界全部景点,并且行使去哪儿网购置景区门票的人也很是多,以是笔者将爬取去哪儿网世界 32 个省市的全部景点数据。(没有抓取香港和澳门的数据,这边的景点并没有分 5A、4A)

去哪儿网的门票处事中暂且还没有开通 API 处事,以是只能对网页理会爬取。要抓取的数据有:景点名、景区品级、所在、景区简述、价值、销量以及热度。

将必要的数据举办定位,一层一层理会,就可以把所需的所有内容抓取下来了。但并不是每一个景点的信息都是全的,以是笔者加了一个 try/except 进去,固然代码有变长,可是整个措施变得越发结实。最终,一共抓取了 41611 条景点信息。
- for i in s:
- inf = {}
- try:
- inf['level'] = i.find('span', class_='level').text[0]
- except Exception as e:
- inf['level'] = '0'
- try:
- inf['price'] = i.find('span', class_='sight_item_price').find('em').text
- except Exception as e:
- inf['price'] = ''
- try:
- inf['name'] = i.find('a', class_='name').text
- except Exception as e:
- inf['name'] = ''
- try:
- inf['num'] = i.find('span', class_='hot_num').text
- except Exception as e:
- inf['num'] = ''
- try:
- inf['add_pro'] = i.find('span', class_='area').find('a').text.split('·')[0]
- inf['add_city'] = i.find('span', class_='area').find('a').text.split('·')[1]
- except Exception as e:
- inf['add_pro'] = i.find('span', class_='area').find('a').text
- inf['add_city'] = i.find('span', class_='area').find('a').text
- try:
- inf['hot'] = i.find('span', class_='product_star_level').find('em').get('title').split(':')[1]
- except Exception as e:
- inf['hot'] = ''
- try:
- inf['descri'] = i.find('div', class_='intro color999').text
- except Exception as e:
- inf['descri'] = ''
02、数据说明
5A 级景区

上图为 5A 景区的销量排行,可以看出秦始皇戎马俑遥遥领先,是第二名长隆欢悦天下的 5/3 倍。让笔者没有想到的是欢悦谷游乐土等在前二十名中占了六个席位,以是对付那些想成长旅游业可是没有瑰丽风光可能汗青事业的都市而言,大力大举成长游乐土行业是一个不错的选择。广州长隆就是一个鲜活的例子。

(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|