Robot英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。有时,你会碰到crawlew(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。robots.txt的格式:
User-agent:描述搜索引擎robot的名字
Disallow:描述不希望被访问的一组URL
Allow:描述希望被访问的一组URL
解释:
User-agent:即你可以指定该规则只对baidu或者google或者其它指定搜索引擎有效,可用通配符*表示全部
Disallow:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
Allow:描述希望被访问的一组URL
robots.txt文件用法举例
例1、禁止所有搜索引擎访问网站的任何部分User-agent:*
Disallow:/
例2、允许所有的robot访问User-agent:*
Disallow:
(或者也可以建一个空文件"/robots.txt"file)
例3、禁止某个搜索引擎的访问User-agent:BadBot
Disallow:/
例4、允许某个搜索引擎的访问User-agent:baiduspider
Disallow:
User-agent:*
Disallow:/
例5、一个简单例子在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/joe/
只能一行,一行的书写,不能把它们给合并。
常用Rotbot的名字:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛:slurp
写好robots.txt对于网站的优化也是很有好处的。