网站robots.txt文件应该怎么写，有什么作用？

发布时间：2021-08-17 浏览数：

写在前言

小友blog旨在帮各位跟博主一样做自媒体&网站建设推广的小友答疑解惑，通过定期内容输出让更多干货内容被大家看到，欢迎一起学习交流！
本篇是关于“网站robots.txt文件应该怎么写，有什么作用？”的文章内容，希望以下内容分享对你有帮助。

文章正文

robots.txt文件是为了告诉搜索引擎哪些页面是允许被访问和抓取的，哪些目录是不想被抓取的。robots.txt应放置于网站的根目录下。

robots.txt的写法和相应的作用如下：

1、User-agent：（定义搜索引擎）
写法：User-agent: * 或搜索引擎的蜘蛛名称
作用：定义网站被访问的搜索引擎是那些。
例子：
User-agent：Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）
User-agent：Baiduspider （定义百度，只允许百度蜘蛛爬取）
User-agent：*（定义所有搜索引擎）

2、Disallow:（禁止爬取）
写法：
DisAllow：/文件夹目录/ （表示禁止蜘蛛爬取网站的其中一个目录）
DisAllow：/文件名称（表示禁止蜘蛛爬取网站的其中一个页面）
作用：屏蔽搜索引擎爬取的页面或目录
例子：
Disallow：/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow：/admin (禁止蜘蛛爬取admin目录)
Disallow：/abc.html (禁止蜘蛛爬取abc.html页面)

3、Allow:（允许爬取）
写法：
Allow：/文件夹目录/ （表示允许蜘蛛爬取网站的其中一个目录）
Allow：/文件名称（表示允许蜘蛛爬取网站的其中一个页面）
作用：允许搜索引擎爬取的页面或目录
例子：
Allow：/ (允许蜘蛛爬取网站的所有目录)
Allow：/admin (允许蜘蛛爬取admin目录)
Allow：/admin/abc.html(“/” 表示根目录下，允许蜘蛛爬取admin目录中的abc.html页面）

4、Sitemap: （网站地图链接）
写法：Sitemap: http://www.***.com/sitemap.xml
作用：让搜索蜘蛛读取到其中的sitemap路径，接着抓取其中相关链接的网页。

5、两个通配符：
robots支持使用通配符"*"和"$"来模糊匹配url
$ 通配符：匹配URL结尾的字符；
* 通配符：匹配0个或多个任意字符；
例子1：
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址
写法：Allow: .htm$
作用：表示允许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件
例子2：
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取
写法：Disallow: /*.htm
作用：表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件，注意，这里并不包括以”.html”为后缀的文件

站长指南：
1、robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
2、每个网站都应该设置有robots.txt文件，即使是网站上所有文件都想要被蜘蛛抓取，也要设置。因为robots.txt文件是每个搜索蜘蛛必先访问的文件。如果网站不存在这个文件，服务器也将在日志中记录一条404错误。
3、对于网站的程序脚本或者样式文件等可以设置不被抓取，这样就不会浪费服务器资源。
4、如果网站长时间不被收录，一定要及时查看是否被设置了robots禁止抓取。

文章标签

网站robots.txt文件

更多关于“seo心得”的基础优化文章

上一篇解读“百度官方标题规范”，教你正确设置网页标题下一篇了解搜索引擎的工作原理，掌握优化重点