说明白一万多条拼车数据,看看北上广深的列位都回哪过年
副问题[/!--empirenews.page--]
目次
媒介 很早之前发过一篇关于某拼车平台爬虫的文章,由于事变较量忙,一向没有下文。最连年底轻微空了些,加上碰上春节返乡大潮,恰恰再拿过来写一下数据说明的思绪。 本次数据样本共13041条,本别收罗了北京、上海、广州、深圳、杭州的某一天出行数据,因为手动操纵难以担保取样的公正性,以是不能对所稀有据功效的精确性做担保,本文以提供思绪参考为主,先放一张蹊径图: 统计功效 好了,知道各人较量体谅功效,以是先把功效放一放,后头再接着讲说明进程。 搭客性别 先单独把性别拎出来看一下,后头再按照都市举办说明,功效表现,抛开未配置性此外搭客岂论,总体来看顺风车的用户群中,男性(占比49.39%)照旧多于女性(占比31.55%)的。事实跨城顺风车,大过年的,女性搭客对付安详性的郁闷照旧要有的。 都市订单 真实数据的话订单数目应该是深圳 > 北京 > 广州 > 上海 > 杭州,可是统一个都市内的搭客性别比例应该照旧具有必然的参考代价的,可以看到北京、上海、深圳的女性搭客数目占比都是高于男性的。 客单价 本来是想较量一下均匀旅程长度,可是想想这个工作太折腾了,因为平台首要照旧依赖旅程来计较拼车用度的,以是通过计较客单价的话或许也能反应一下均匀形生长度(我猜的,然后功效是这样的,没想到广州是最高的,也也许是我统计错误)。 那边搭客最壕 偶然辰有些偏远地域订单可能顺道司机少,搭客会加价但愿司机接单,于是统计了一下各都市加价订单的占比僻静均的加价额度,得出如下功效: 占比最高的都市是深圳,均匀加价额度最高的都市也是深圳,看来深圳的小哥哥小姐姐们简直脱手阔绰,然而加价比例最低的是北京,不外这也不能声名帝都人民不壕气,也许就是人家富贵,司机多。 返乡蹊径图 最后放几张返乡的蹊径图 北京 上海 广州 深圳 杭州 杭州明明有别于其他几个都市,一个是杭州的数据样本多,其它一个平台上杭州黄牛多,那些最远的票据就是黄牛告白单。 爬虫思绪 注册成为司机,操作mitm抓包存储拼车单。 统计思绪 数据的话,我是通过当地Mongodb存储,以是直接用python操纵Mongodb数据。 Pymongo (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |