新建的网站,这个robots是什么意思?
网友解答: Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
简介 网友解答:当一个搜索蜘蛛访问网站时,首先访问根目录WWW下是否存在robots.txt,若存在,搜索机器人就会按照该文件中的内容来确定访问的范围。
01-认识robots.txt(1)robots.txt是搜索引擎访问网站时查看的第一个文件,决定着蜘蛛能或不能访问。
(2)若存在robots.txt文件,蜘蛛会按照该文件来确定访问的范围;若不存在,所有的搜索蜘蛛将能够访问网站上所有页面。
(3)robots.txt必须放在一个站点的根目录下,且文件名必须全部小写(真实的服务器就使用ftp上传)。
(4)建议就算允许所抓取所有内容,也要建一个空的robots.txt文件。
(5)可将sitemap网站地图放置robots.txt文件(地图写法:http://abc.com/sitemap.html)。
02-robots.txt的写法(1)允许所有搜索引擎访问网站所有内容
User-agent: *
Disallow:
(2)禁止所有搜索引擎访问网站所有内容
User-agent: *
Disallow: /
(3)只允许百度搜索引擎抓取
User-agent: Baiduspider
Disallow: /
(4)如果我们禁止除百度外的一切搜索引擎索引
User-agent: Baiduspider
Disallow:
robots.txt文件其实就是告诉蜘蛛哪些页面可以抓取,哪些页面不能访问。