GitHub上有哪些好用的爬虫
在开拓现实项目标时辰,你常常没有足够多的数据,必要本身去想步伐获取,这个时辰经常必要用到爬虫。然而找来找去,很也许找了好久都找不到既免费又好用的爬虫,本日就从好的爬虫开始提及,这很也许是项目乐成的开始。 ![]() 1 综述类项目与进修资料起首给各人先容一些很是优越的综述和进修类项目,利便各人快速索引找到所必要的资源。 1.1、awesome-spider 地点:https://github.com/facert/awesome-spider 这是ID为facert的一个知乎工程师开源的,头像如下,判断为大佬。 ![]() star6000+,内容如下: ![]() 这一款爬虫,内里汇集了险些全部可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ,尚有许多的不行描写的网站,你懂的。 1.2、Nyspider 地点:https://github.com/Nyloner/Nyspider 这是ID为Nyloner的一个今天头条的工程师弄的,头像如下: ![]() star1000+,气魄威风凛凛与上面的项目大有差异。 ![]() 可以看出,都是种种网址。这很头条,跟这位小哥哥的事变内容预计有相关。 1.3、awesome-python-login-model 地点:https://github.com/CriseLYJ/awesome-python-login-model 这是ID为CriseLYJ(职业不详)的用户,头像如下。 ![]() 这个项目用于模仿各类网址登岸,也包括一些简朴的爬虫,star6000+。 ![]() 先从这个项目开始说明各大网站的登录方法,很是有效,可谓摸清敌手再下手。 1.4、python-spider 地点:https://github.com/Jack-Cherish/python-spider 这是ID为Jack-Cherish的东北大学的一个门生清算的进修python爬虫的资料,这个头像很门生。 ![]() star6000+,包括不少的拭魅战项目,很是得当想进修的伴侣。 ![]() 其他尚有一些项目,不再逐一先容。 https://github.com/jhao104/proxy_pool https://github.com/Ehco1996/Python-crawler 2 优越图片/视频项目笔者的精神多在图像和视频,以是下面各自先容一个成果强盛,简朴好用的图片和视频爬虫。 器材亲测恒久有用,省去了许多找爬虫器材的时刻,早用早好。 2.1、Google,Baidu,Bing三大搜素引擎图片爬虫 地点:https://github.com/sczhengyabin/Image-Downloader 这个爬虫由ID为sczhengyabin的用户清算,看头像就知道欠好惹。 ![]() 可以按要求爬取百度、Bing、Google上的图片,我已经用了几年了,提供了稀奇人道化的GUI利便操纵,行使要领如下: 行使python image_downloader_gui.py挪用GUI界面,设置好参数(要害词,路径,爬取数量等),要害词可以直接在这里输入也可以选择从txt文件中选择。 可以设置必要爬取的样本数量,这里一次爬了2000张,妥妥的3分钟搞定。 ![]() ![]() 这个爬虫足够满意小型项目初始数据集的蕴蓄(爬几千张高质量图片妥妥的),功效定名也很是整齐类型,最大的上风就是不变啊,不会三天两天不能用了。 2.2、各大视频网站爬虫 地点:https://github.com/iawia002/annie 由ID为iawia002的用户清算,看头像来路也不简朴。 ![]() Annie是一款以go说话编码的视频下载器材,行使便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的: ![]() 固然这个项目可以下载图片,可是我们照旧来用它下载视频吧,行使要领很简朴: annie [可选参数]http://… (视频网址) ![]() 视频会下载到当前目次,至于那些可选参数,赶忙去探索吧。 ![]() 要说互联网圈里最有势力的那些人,搞爬虫的好手必然位列个中,他们或许是把握信息最多的那批人了,擅长整合抓取资源,假如身边有这样的大佬,必然要紧紧抱着。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |