Robot英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。有时,你会碰到crawlew(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。robots.txt的格式:

User-agent:描述搜索引擎robot的名字

Disallow:描述不希望被访问的一组URL

Allow:描述希望被访问的一组URL

解释:

User-agent:即你可以指定该规则只对baidu或者google或者其它指定搜索引擎有效,可用通配符*表示全部

Disallow:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型

Allow:描述希望被访问的一组URL

robots.txt文件用法举例

例1、禁止所有搜索引擎访问网站的任何部分

User-agent:*

Disallow:/

例2、允许所有的robot访问

User-agent:*

Disallow:

(或者也可以建一个空文件"/robots.txt"file)

例3、禁止某个搜索引擎的访问

User-agent:BadBot

Disallow:/

例4、允许某个搜索引擎的访问

User-agent:baiduspider

Disallow:

User-agent:*

Disallow:/

例5、一个简单例子

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/joe/

只能一行,一行的书写,不能把它们给合并。

常用Rotbot的名字:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler/

inktomi蜘蛛:slurp

写好robots.txt对于网站的优化也是很有好处的。

Last modification:April 11th, 2020 at 09:18 pm
如果觉得我的文章对你有用,请随意赞赏