新建的网站，这个robots是什么意思？

2018-10-10

1402

网友解答: Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页

网友解答:

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

简介网友解答:

当一个搜索蜘蛛访问网站时，首先访问根目录WWW下是否存在robots.txt，若存在，搜索机器人就会按照该文件中的内容来确定访问的范围。

01-认识robots.txt

（1）robots.txt是搜索引擎访问网站时查看的第一个文件，决定着蜘蛛能或不能访问。

（2）若存在robots.txt文件，蜘蛛会按照该文件来确定访问的范围；若不存在，所有的搜索蜘蛛将能够访问网站上所有页面。

（3）robots.txt必须放在一个站点的根目录下，且文件名必须全部小写（真实的服务器就使用ftp上传）。

（4）建议就算允许所抓取所有内容，也要建一个空的robots.txt文件。

（5）可将sitemap网站地图放置robots.txt文件（地图写法：http://abc.com/sitemap.html）。

02-robots.txt的写法

（1）允许所有搜索引擎访问网站所有内容

User-agent: *

Disallow:

（2）禁止所有搜索引擎访问网站所有内容

User-agent: *

Disallow: /

（3）只允许百度搜索引擎抓取

User-agent: Baiduspider

Disallow: /

（4）如果我们禁止除百度外的一切搜索引擎索引

User-agent: Baiduspider

Disallow:

robots.txt文件其实就是告诉蜘蛛哪些页面可以抓取，哪些页面不能访问。

相关推荐