加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

大前端期间安详性怎样做

发布时间:2019-01-22 08:15:25 所属栏目:建站 来源:fantasticbaby
导读:之前在上家公司的时辰做过一些爬虫的事变,也辅佐爬虫工程师办理过一些题目。然后我写过一些文章宣布到网上,之后有一些人就找我做一些爬虫的外包,内容或许是爬取小红书的用户数据和商品数据,可是我没做。我认为对付海内的大数据公司没几家是有真正的大

上面说的要领首要是针对数字做的反爬本领,假如要对汉字举办反爬怎么办?接下来提供几种方案

  • 方案1: 对付你站点频率最高的词云,做一个汉字映射,也就是自界说字体文件,步调跟数字一样。先将常用的汉字天生对应的 ttf 文件;按照下面提供的链接,将 ttf 文件转换为 svg 文件,然后在下面的“字体映射”链接点进去的网站上面选择前面天生的 svg 文件,将svg文件内里的每个汉字做个映射,也就是将汉字专为 unicode 码(留意这里的 unicode 码不要去在线直接天生,由于直接天生的对象也就是有纪律的。我给的做法是先用网站天生,然后将获得的功效做个简朴的变革,好比将“e342”转换为 “e231”);然后接口返回的数据凭证我们的这个字体文件的法则反已往映射出来。
  • 方案2: 将网站的重要字体,将 html 部弟子成图片,这样子爬虫要辨认到必要的内容本钱就很高了,必要用到 OCR。服从也很低。以是可以拦截掉一部门的爬虫
  • 方案3: 看到携程的技能分享“反爬的最高地步就是 Canvas 的指纹,道理是差异的呆板差异的硬件对付 Canvas 画出的图老是存在像素级此外偏差,因此我们判定当对付会见来说大量的 canvas 的指纹同等的话,则以为是爬虫,则可以封掉它”。

本人将方案1实现到 Demo 中了。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读