应用程序开发公司
软件开发

针对您的项目需求及预算规划量身制定方案

个体/中小企业/集团/政府机构/行业组织 了解详情 了解详情

robots.txt是什么?怎么运用

发布时间:2024-01-01 00:00 浏览次数:45

做为一个网站建设提优化的公司,就是必须要回的就是robots.txt文件,所以我们就去看一看这个文件的意思


robots.txt就是一个氢铵文本文件,用作声明该网站中不敢被蜘蛛出访的部分,或者选定蜘蛛捕捉的部分。不是规定,而是一种签订合同,须要蜘蛛自觉遵守的一种习俗


当蜘蛛出访一个站点时,它可以首先检查该站点与否存有robots.txt


如果找出,蜘蛛就可以按照该文件中的内容去确认捕捉的范围


如果该文件不存有,那么蜘蛛就沿着链接轻易捕捉


robots.txt的促进作用


1、避免储物柜或关键内容被搜索引擎捕捉


2、节省服务器资源,从而提升服务质量


3、增加重复捕捉,提升网站质量


4、选定sitemap文件边线


User-agent: *


针对哪个搜索引擎蜘蛛


这里的*代表搜索引擎种类,*就是通配符


Allow


定义的就是容许蜘蛛捕捉某个栏目或文件


Allow: /cgi-bin/


这里定义就是容许出访cgi-bin目录


Allow:/* .htm$


容许出访以".htm"为后缀的URL


$所指的就是相匹配行结束符


*所指的就是相匹配任何字符


Disallow


定义的就是严禁蜘蛛捕捉某个栏目或文件


Disallow: /admin/


这里定义就是严禁捕捉admin目录


Disallow: /cgi-bin/*.htm


严禁捕捉/cgi-bin/目录下的所有以".htm"为后缀的URL


Disallow: /*?*


严禁捕捉网站中所有涵盖问号 “?”的网址


sitemap:URL全称(涵盖http://部分)


说搜索引擎蜘蛛这个页面就是网站地图


robots.txt文件主要就是管制整个站点或者目录的蜘蛛出访情况,而robots meta标签则主要就是针对某个具体内容的页面

TAG标签:
阅读推荐