Robot的用法及常用Robot的名字

Robot英文直译是机器人，在搜索引擎优化SEO中，我们经常翻译为:探测器。有时，你会碰到crawlew（爬行器），spider（蜘蛛），都是探测器之一，只是叫法不同。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。robots.txt的格式：

User-agent:描述搜索引擎robot的名字

Disallow:描述不希望被访问的一组URL

Allow:描述希望被访问的一组URL

解释：

User-agent：即你可以指定该规则只对baidu或者google或者其它指定搜索引擎有效，可用通配符*表示全部

Disallow：设定禁止访问的部分，可以用完整url，也可以用相对路径，可以是单个目文件，也可以是整个文件夹，也可以用通配符限定指定类型

Allow：描述希望被访问的一组URL

robots.txt文件用法举例

例1、禁止所有搜索引擎访问网站的任何部分

User-agent:*

Disallow:/

例2、允许所有的robot访问

User-agent:*

Disallow:

（或者也可以建一个空文件"/robots.txt"file）

例3、禁止某个搜索引擎的访问

User-agent:BadBot

Disallow:/

例4、允许某个搜索引擎的访问

User-agent:baiduspider

Disallow:

User-agent:*

Disallow:/

例5、一个简单例子

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/joe/

只能一行，一行的书写，不能把它们给合并。

常用Rotbot的名字：

google蜘蛛：googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛：lycos_spider_(t-rex)

alltheweb蜘蛛：fast-webcrawler/

inktomi蜘蛛：slurp

写好robots.txt对于网站的优化也是很有好处的。

Robot的用法及常用Robot的名字

Leave a Comment Cancel reply

最全的wordpress插件，最好用的WP插件集合

主题isblog发布，完美支持WordPress

WordPress单本小说主题DanXs2.0出售喽

namesilo新购域名3天内申请退款教程

单本小说WordPress主题DanXs发布，可免费下载

2012年中秋国庆合并放假8天 9月30日至10月7日休息

搜狗4.1愚人节游戏开玩

js一键复制淘口令等文本

博客首页文章字数限制代码

wordpress的缓存插件cos-html-cache的源码解读

Robot的用法及常用Robot的名字