加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

Google 蜘蛛运行网页中JS和CSS样式

发布时间:2018-08-29 12:45:17 所属栏目:创业 来源:站长网
导读:旧见识 在我的既有见识中,搜刮引擎的网页爬虫/蜘蛛/呆板人(Crawler/Spider/Robot)只抓取页面的 HTML 代码,对付内部或外部的 JS 与 CSS 代码是一致无视的。以是我们也常常会说,Ajax 倒霉于搜刮引擎的抓取,倒霉于 SEO。 由于在我们看来,搜刮引擎爬虫毕

  旧见识

  在我的既有见识中,搜刮引擎的网页爬虫/蜘蛛/呆板人(Crawler/Spider/Robot)只抓取页面的 HTML 代码,对付内部或外部的 JS 与 CSS 代码是一致无视的。以是我们也常常会说,Ajax 倒霉于搜刮引擎的抓取,倒霉于 SEO。

  由于在我们看来,搜刮引擎爬虫事实不是成果强盛的赏识器,它无法运行 JS,也无法渲染 CSS。那些花团锦簇的页面,在爬虫眼中不外是纯粹的文本流(或包括了布局标志的文本信息流)罢了。

  然而,近期看到的两则关于 Google 的消息,彻底倾覆了我对搜刮引擎爬虫的认知。

  消息一

  一段来自 Google 资深工程师 Matt Cutts 的视泼魅震惊了我。Matt 申饬我们,不只文本与配景同色、字体巨细配置为 0、用 CSS 隐藏文字等等这些技巧已经是小儿科了,并且 Google 此刻还可以辨认通过 JS 来潜匿笔墨的作弊要领。

  在视频中,一段隐晦的 JS 代码将某元素的

  .style.display

  属性配置为

  'none'

  ,试图潜匿那些只规划提供应搜刮引擎、而不展示给用户的笔墨。Matt 暗示,这种作弊方法此刻已经瞒不了 Google 了。

  消息二

  消息二越发可怕,听说 Google 可以抓取 Ajax 内容!该文暗示,给 URL 的 hash 部门加上特定的标识符(即

  domain.com/#abc

  改为

  domain.com/#!abc

  ),会让 Googlebot 贯通到该 URL 是一个 Ajax 页面(而非页面中的锚点),并举办抓取。

  你也许对 Google 的这一技能改造没几多乐趣,但你必定留意到了题目的本质:Googlebot 可以抓取 Ajax 内容,也就是说,Googlebot 完全有手段运行页面中的 JS,并且成果完美!

  爬虫与赏识器

  假如这两则消息都是真的,那么,从某种意义上说,爬虫的举动和手段已经与赏识器越来越靠近了。这也意味着,搜刮引擎爬虫将抓取更多的内容(包罗 JS 和 CSS 文件),网站的流量负载将会加大。

  另一方面,爬虫在抓取页面的进程中也将发生更多的资源耗损——毕意仅仅处理赏罚文本信息的资源开销要远远小于完备地渲染页面和运行客户端措施。

  因此,我今朝如故对这两则消息将信将疑。莫非这是 Google 放出的烟幕弹?可能是功德者炮制的假消息?假如 Googlebot 真的已经具备了运行 JS 或渲染 CSS 的手段,那么为了将资源开销节制在公道的范畴内,或者 Google 会在内部启用黑/白名单机制?

  站长们

  假如担忧爬虫对主机流量的腐蚀,或者可以思量在

  robots.txt

  文件中榨取爬虫对

  *.js

  和

  *.css

  文件的抓取。不外暂不确定这样做是否存在不良的副浸染。

  或者也有人会担忧,正常的页面机关偶然辰也必要行使一些潜匿笔墨的本领,好比 【CSS 图代文】、【潜匿模块的 hx 标识信息】等等。这样会不会被 Google 鉴定为作弊呢?

  我信托对付像 Google 这样“智慧”的搜刮引擎来说,它即然有手段让爬虫运行 JS 和 CSS,它也肯定有手段来判定什么是作弊、什么是正常的机关必要。以是我认为站长们大可不必惶恐,泛泛该奈何就奈何,身正不怕影斜,法则老是用来束缚那些“非法之徒”的。

  以是,对付某些 SEOer 来说,这好像是个坏动静。假如他们还在思量是否尚有新的作弊方案,那么我觉自得义不大。很显然,SEO 作弊本领的保留空间将越来越小,与此同时,网站自身内容的代价才是 SEO 的真实基本。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读