加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

SEO收录非常诊断:负载平衡架构导致的SEO题目及办理方案

发布时间:2020-08-29 03:53:32 所属栏目:移动互联 来源:网络整理
导读:起首,先容一下本身。本人就职于深圳某企业,恒久混迹于乙方外包公司,众所周知seo外包公司接的是绝大部门是小企业网站,这些网站做的要害词每每也仅是改个TDK就

最近,本人认真的个中一个站点收录呈现了非常,趁着周末有空报告一下整个诊断进程。焦点题目有两点,处事器架构和网站措施架构导致的;本篇仅分享处事器架构导致的收录非常。

起首,先容一下本身。本人就职于深圳某企业,恒久混迹于乙方外包公司,众所周知seo外包公司接的是绝大部门是小企业网站,这些网站做的要害词每每也仅是改个TDK就完成排名的事变。

再加上,今朝绝大部门中小站点的架构很简朴,开源CMS+单一云处事器(假造主机)+CDN(这照旧有点运维手段公司)。鉴于以上履历,导致本人完全没故意识随处事器架构方面也能呈现题目。

一、收录非常的发明

从(图1)可以和明明的看出,在3月中下旬收录是方向正常的,题目呈此刻3.31日-4.25日之间呈现了浮动,也就是说,这个区间必然是站点呈现了题目导致收录非常。

本人开始按通例要领排查,出格是处事器日记有些参数没有解除留意,以至于导致了题目发明,详细如下:

1.1、站长平台模仿爬虫抓取,正常。

1.2、搜刮引擎爬虫抓取数目在晋升,方向正常。这里有非常,排查伪蜘蛛爬虫在抓数据,真实百度爬虫确实也在增添。

1.3、焦点要害词排名浮动,但方向且上升趋势靠前,今朝焦点大词处于前5名,正常。

1.4、处事器日记说明,爬虫对应的request_uri值(相对地点),暂属正常,请看下文。

1.5、处事器日记是阿里云的日记,http哀求,7.18日、7.19日、7.20日以及7.26日呈现小面积处事器500会见错误;但最多只呈现有限的时刻收录非常,不至于大范畴不收录。

在处事器会见日记说明中,一样平常必要留意的项是:爬虫抓取时刻值,爬虫页面URL值,爬虫在页面抓取次序,时刻内爬虫抓取数目,另一说蜘蛛IP值有权重坎坷之分(本人不确定,故不参考)

页面URL值:一样平常处事器日记是相对地点,本人诊断呈现的题目在于忽略host值,真实抓取URL应该是,host+request_uri值组合。

页面抓取次序:可检讨网站架构的爬行环境,或容许以知道爬虫在网站页面中的爬行次序,可以帮助行使爬虫软件可能开拓经典爬虫(PY,PHP等)的爬行环境作为参考

时刻内爬虫抓取数目:检讨网站页面总量和时刻段内抓取量的占比,判定网站的受接待水平。

说到这里,交接一下站点的处事器架构:

用的是负载平衡,文件处事器+数据处事器+前端处事器,数据处事器所稀有据是由API接口、GET方法前端和app行使,网站URL是相对地点。处事器之间天然用的也是内网通信。

综上,也许各人也看出有忽略的参数,是1.4中提到的日记host值,由于是相对地点,host+request_uri步崆抓取的完备地点。一向忽略的Host值,原本是API的二级域名(图2)

说到这里,各人也许已经根基上可以确定知道缘故起因了。

就是百度基础没有抓取到真实的页面URL,现实上抓取的是API域名+request_uri,

即假设数据库处事器API给前端渲染的数据路径是api.**.com,走内网IP,

抓取到的页面URL为:https://api.**.com/post/1.html

真实应该是外网IP的URL:https://www.**.com/post/1.html

既然焦点题目已掌握30%,下一步天然是数据证明,首要从几个点。

1、掀开拓日记记录

2、4月前后的处事器日记清算比拟

从1中觉察,4.13号负载平衡的数据处事器api打消署理,这样造成的效果是前端直接抓取了host主机值为api域名下的数据在前端渲染,由于是直接行使内网IP没颠末署理,同时api二级域名为host主机值。

从2中觉察,4月前后日记的host主机值呈现了改变,由**.com酿成了api.**.com。

最终,题目就呈此刻host主机为api的站点,没有行使署理,也就是说只要api站点通过署理酿成www的二级站点渲染即可。假如没有行使署理,百度GET返回的页面是内网IP,抓取到的也就是https://api.**.com/post/1.html 这个URL。

办理方案:

1、负载平衡的数据处事器api接口行使署理

2、Head区增进标签

3、前端渲染的HTML行使绝对路径

4、开拓个API接口推送数据

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读