小优建站优化

网站robots.txt文件应该怎么写,有什么作用?

小优
robots.txt文件是为了告诉搜索引擎哪些页面是允许被访问和抓取的,哪些目录是不想被抓取的。robots.txt应放置于网站的根目录下。

robots.txt的写法和相应的作用如下:

1、User-agent:(定义搜索引擎)
写法:User-agent: * 或 搜索引擎的蜘蛛名称
作用:定义网站被访问的搜索引擎是那些。
例子:
User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
User-agent:*(定义所有搜索引擎)

2、Disallow:(禁止爬取)
写法:
DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)
作用:屏蔽搜索引擎爬取的页面或目录
例子:
Disallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬取abc.html页面)

3、Allow:(允许爬取)
写法:
Allow:/文件夹目录/ (表示允许蜘蛛爬取网站的其中一个目录)
Allow:/文件名称 (表示允许蜘蛛爬取网站的其中一个页面)
作用:允许搜索引擎爬取的页面或目录
例子:
Allow:/ (允许蜘蛛爬取网站的所有目录)
Allow:/admin (允许蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬取admin目录中的abc.html页面)

4、Sitemap: (网站地图链接)
写法:Sitemap: http://www.***.com/sitemap.xml
作用:让搜索蜘蛛读取到其中的sitemap路径,接着抓取其中相关链接的网页。

5、两个通配符:
robots支持使用通配符"*"和"$"来模糊匹配url
$ 通配符:匹配URL结尾的字符;
* 通配符:匹配0个或多个任意字符;
例子1:
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址
写法:Allow: .htm$
作用:表示允许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件
例子2:
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取
写法:Disallow: /*.htm
作用:表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件


站长指南:
1、robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
2、每个网站都应该设置有robots.txt文件,即使是网站上所有文件都想要被蜘蛛抓取,也要设置。因为robots.txt文件是每个搜索蜘蛛必先访问的文件。如果网站不存在这个文件,服务器也将在日志中记录一条404错误。
3、对于网站的程序脚本或者样式文件等可以设置不被抓取,这样就不会浪费服务器资源。
4、如果网站长时间不被收录,一定要及时查看是否被设置了robots禁止抓取。

标签:网站robots.txt文件

发表评论 (已有 条评论)

   
验证码: 匿名发表

评论列表