加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

怎样行使Photon高服从提取网站数据

发布时间:2018-08-18 05:45:26 所属栏目:移动互联 来源:佚名
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 Photon是一种高服从的的收集爬虫,可从方针中提取URL,文件以及种种谍报。其通过多线程大大加速数据提取历程。 项目地点: https://github.com/s0md3v/Photon 首要特点 Photon提供

选项 -s 或 –seeds,行使示例:

  1. python photon.py -u "http://example.com" --seeds "http://example.com/blog/2018,http://example.com/portals.html" 

你可以行使此选项添加自界说子URL,要以逗号脱离。

指定user-agent(s)

选项 –user-agent,行使示例:

  1. python photon.py -u "http://example.com" --user-agent "curl/7.35.0,Wget/1.15 (linux-gnu)" 

你可以行使此选项行使本身的用户署理,以逗号脱离。此选项仅用于辅佐用户在不修改默认user-agents.txt文件的环境下行使特定用户署理。

自界嗣魅正则表达式模式

选项 -r 或 –regex,行使示例:

  1. python photon.py -u "http://example.com" --regex "d{10}" 

通过行使此选项指定正则表达式模式,可以在抓取时代提取字符串。

导格外式化功效

选项 -e 或 –export

通过 -e 选项,你可以指定要生涯文件的输格外式,行使示例:

  1. python photon.py -u "http://example.com" --export=json 

今朝支持的名目:json

跳过数据提取

选项: –only-urls,行使示例:

  1. python photon.py -u "http://example.com" --only-urls 

该选项会跳过提取js文件等数据,当你只必要抓取方针时,该选项可以派上用场。

更新

选项 –update,行使示例:

  1. python photon.py --update 

假如行使此选项,Photon会搜查更新。假若有新的版本,Photon会下载并将更新文件归并到当前目次中,Photon不会包围其他文件。

Ninja模式

选项 –ninja

此选项启用Ninja模式。在该模式下,Photon会行使以下网站代表你发出哀求。

  1. codebeautify.org 
  2. photopea.com 
  3. pixlr.com 

转储DNS数据

选项 –dns,行使示例:

  1. python photon.py -u http://example.com --dns 

建设表现方针域名的DNS数据的图像。今朝不支持方针是子域。

怎样行使Photon高服从提取网站数据

【编辑保举】

  1. DB-Engines 8 月数据库榜单,Oracle 受新版本计策影响
  2. 腾讯云丢失数据被索赔1100万!实情懂得
  3. 诸葛辉:将来已来 大数据期间的中国智造
  4. 腾讯云“数据丢失”引思索:云处事毕竟安详不安详?
  5. 数据工程师必看:说明数据时常见的 7 类统计陷阱
【责任编辑:张燕妮 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读