应用程序开发公司
软件开发

针对您的项目需求及预算规划量身制定方案

个体/中小企业/集团/政府机构/行业组织 了解详情 了解详情

Robots.txt 是什么?

发布时间:2024-01-01 00:00 浏览次数:45

Robots.txt 就是你穿着说搜寻机器人哪些页面你可以讨厌他们不能出访您的网站的文本 (而不是 html) 文件。 Robots.txt 是不是强制性的搜索引擎,但是搜索引擎通常严格遵守他们都反问什么不想搞。 务必必须回应 robots.txt 不从避免搜索引擎捕捉您的网站 (即为它就是不一的防火墙或密码保护的一种) 的一种方法,您置放一个 robots.txt 文件的事实就是类似于把一条注解"恳请不要输出"一个弹出的门 — — Thoubal无法避免小偷进去,但好人,将不打开门,然后输出。 也就是为什么我们说道与否真的存有森 sitive 数据,就是太倚赖 robots.txt,以避免被索引,并表明在搜寻结果的不能健全。


robots.txt 的边线就是非常关键的。 它必须就是主目录中,因为否则用户代理 (搜索引擎) 不能能找出它 — — 他们不中搜寻名叫 robots.txt 的文件的整个站点。 恰好相反,他们首先主目录 (例如 http://mydomain.com/robots.txt) 中搜寻和他们那里打听没它,如果他们只是假设此站点没 robots.txt 文件,因此他们索引他们辨认出路上的一切。 因此,如果你不穿着 robots.txt 中适度的边线,不要吃惊搜索引擎索引了您的整个站点。


概念与结构的 robots.txt 已发展了十多年前,如果您有兴趣进一步介绍它,恳请出访 http://www.robotstxt.org/ 或因为这篇文章中,我们可以处置只与一个 robots.txt 文件的最重要的环节,您可以转回至 标准的机器人确定 直。 下一步我们可以与结构稳步 robots.txt 文件。


Robots.txt File 的结构


一个 robots.txt 的结构就是相当直观 (和几乎无法有效率) – 它就是用户代理和不容许的文件和目录的一个无穷列表。 基本上,语法如下右图:


用户代理:


不容许:


"用户代理" 就是搜索引擎的捕捉工具和 不容许: 列举的文件和必须从索引中确定的目录。 在"用户代理:"和"不容许:"条目,您可以涵盖注解行 – 只是隐密的结尾置放,# 号:


# 所有用户代理不都容许以查阅该 /temp 目录。


用户代理: *


不容许: /temp/


Robots.txt File 的陷阱


当你已经开始搞繁杂的文件 – 即为您同意容许相同的用户代理出访相同的目录 – 可以已经开始问题,如果你没缴付费用的 robots.txt 文件陷阱,特别注重。 常用的错误包含写字错误和存有冲突的指令。 拼写错误的用户-代理后用户代理和 Disallow,, 缺乏冒号的目录包含拼写错误等。 写字错误可以很难找出,但在某些情况下检验工具的协助。


更轻微的问题就是存有逻辑错误。 比如:


用户代理: *


不容许: /temp/


用户代理: Googlebot


不容许: /images/


不容许: /temp/


不容许: /cgi-bin /


上面的示例中就是一个容许出访除在 /temp 站点上的所有内容的所有代理的 robots.txt 从目录。 超过在这里较好,但更高版本在那里就是另一个记录,为 Googlebot 选定限制性更弱的条款。 Googlebot 已经开始加载 robots.txt,它可以看见所有文件夹除外/temp/并都容许的 (包含 Googlebot 本身) 的所有用户代理。 这就是足够多的介绍,它不能念至文件和一切除了 /temp/-包含 /images/ 和 /cgi-bin,可以索引 /,你指出你已经说它不要 Googlebot。 你看见一个 robots.txt 文件结构的直观但仍轻微的错误可以便利地展开。


用作分解成和检验 Robots.txt 文件工具


忘记,你可以存有一个 robots.txt 文件的直观语法,您可以始终写作这一切都是可以的但它就是更不易采用检验程序相似这样: http://tool.motoricerca.info/robots-checker.phtml。 这些工具报告有关常用的错误,例如缺乏斜杠或冒号,检测没的如该会损害你的不懈努力。 为基准如果您键入:


user-agent: *


不容许: /temp/


这就是错误的因为存有"用户"和"代理"之间没斜杠和语法不恰当。


在这种情况下当您存有一个繁杂的 robots.txt 文件 – 即为你给相同的用户代理的相同指令或您存有一长串的目录和子目录中确定,撰写文件手动可以一个真正的痛苦。 但不必害怕,— — 有的工具,将为您分解成该文件。 什么就是更多存有容许挑选哪些文件,并点的可视化工具,就是必须确定的文件夹。 即使你不讨厌为 robots.txt 买来一个图形化的工具,但在在线工具为您提供更多协助。 为基准 服务器端机器人发电机 提供更多的用户代理的下拉列表,您可以列举文件的文本框,您不期望创建索引。 坦白的说道,它不好帮忙了除非您想设置特定的规则,为相同的搜索引擎,因为在任何情况下,您键入的目录列表,但不只是什么。


本文由网站建设公司卓越迈创公布,转发恳请标明文章原文!

TAG标签:
阅读推荐