加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

robots.txt具体先容

发布时间:2020-03-15 18:45:01 所属栏目:编程 来源:站长网
导读:robots.txt根基先容 robots.txt是一个纯文本文件,在这个文件中网站打点者可以声明该网站中不想被robots会见的部门,可能指定搜刮引擎只收录指定的内容。 当一个搜刮呆板人(有的叫搜刮蜘蛛)会见一个站点时,它会起首搜查该站点根目次下是否存在robots.txt
robots.txt根基先容
robots.txt是一个纯文本文件,在这个文件中网站打点者可以声明该网站中不想被robots会见的部门,可能指定搜刮引擎只收录指定的内容。
当一个搜刮呆板人(有的叫搜刮蜘蛛)会见一个站点时,它会起首搜查该站点根目次下是否存在robots.txt,假如存在,搜刮呆板人就会凭证该文件中的内容来确定会见的范畴;假如该文件不存在,那么搜刮呆板人就沿着链接抓取。
其它,robots.txt必需安排在一个站点的根目次下,并且文件名必需所有小写。
robots.txt写作语法
起首,我们来看一个robots.txt典型:
会见以上详细地点,我们可以看到robots.txt的详细内容如下:
# Robots.txt file from
# All robots will spider the domain
User-agent: *
Disallow:
以上文本表达的意思是应承全部的搜刮呆板人会见站点下的全部文件。
详细语法说明:个中#后头笔墨为声名信息;User-agent:后头为搜刮呆板人的名称,后头假如是*,则泛指全部的搜刮呆板人;Disallow:后头为不应承会见的文件目次。
下面,我将罗列一些robots.txt的详细用法:
应承全部的robot会见
User-agent: *
Disallow:
可能也可以建一个空文件 “/robots.txt” file
榨取全部搜刮引擎会见网站的任何部门
User-agent: *
Disallow: /
榨取全部搜刮引擎会见网站的几个部门(下例中的01、02、03目次)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
榨取某个搜刮引擎的会见(下例中的BadBot)
User-agent: BadBot
Disallow: /
只应承某个搜刮引擎的会见(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
其它,我认为有须要举办拓展声名,对robots meta举办一些先容:
Robots META标签则首要是针对一个个详细的页面。和其他的META标签(如行使的说话、页面的描写、要害词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来汇报搜刮引擎ROBOTS怎样抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有巨细写之分,name=”Robots”暗示全部的搜刮引擎,可以针对某个详细搜刮引擎写为name=”BaiduSpider”。 content部门有四个指令选项:index、noindex、follow、nofollow,指令间以“,”脱离。
INDEX 指令汇报搜刮呆板人抓取该页面;
FOLLOW 指令暗示搜刮呆板人可以沿着该页面上的链接继承抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对付它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
个中
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>
今朝看来,绝大大都的搜刮引擎呆板人都遵守robots.txt的法则,而对付Robots META标签,今朝支持的并不多,可是正在逐渐增进,如闻名搜刮引擎GOOGLE就完全支持,并且GOOGLE还增进了一个指令“archive”,可以限定GOOGLE是否保存网页快照。譬喻:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读