做为一个网站建设提优化的公司,就是必须要回的就是robots.txt文件,所以我们就去看一看这个文件的意思
robots.txt就是一个氢铵文本文件,用作声明该网站中不敢被蜘蛛出访的部分,或者选定蜘蛛捕捉的部分。不是规定,而是一种签订合同,须要蜘蛛自觉遵守的一种习俗
当蜘蛛出访一个站点时,它可以首先检查该站点与否存有robots.txt
如果找出,蜘蛛就可以按照该文件中的内容去确认捕捉的范围
如果该文件不存有,那么蜘蛛就沿着链接轻易捕捉
robots.txt的促进作用
1、避免储物柜或关键内容被搜索引擎捕捉
2、节省服务器资源,从而提升服务质量
3、增加重复捕捉,提升网站质量
4、选定sitemap文件边线
User-agent: *
针对哪个搜索引擎蜘蛛
这里的*代表搜索引擎种类,*就是通配符
Allow
定义的就是容许蜘蛛捕捉某个栏目或文件
Allow: /cgi-bin/
这里定义就是容许出访cgi-bin目录
Allow:/* .htm$
容许出访以".htm"为后缀的URL
$所指的就是相匹配行结束符
*所指的就是相匹配任何字符
Disallow
定义的就是严禁蜘蛛捕捉某个栏目或文件
Disallow: /admin/
这里定义就是严禁捕捉admin目录
Disallow: /cgi-bin/*.htm
严禁捕捉/cgi-bin/目录下的所有以".htm"为后缀的URL
Disallow: /*?*
严禁捕捉网站中所有涵盖问号 “?”的网址
sitemap:URL全称(涵盖http://部分)
说搜索引擎蜘蛛这个页面就是网站地图
robots.txt文件主要就是管制整个站点或者目录的蜘蛛出访情况,而robots meta标签则主要就是针对某个具体内容的页面