搜索引擎优化排名:使用robots.txt文件的利弊,以及robots.txt语法详解

该robots.txt文件应始终位于您的域的根目录。因此,如果您的域名是www.yueshijie.com,则应该在http://www.yueshijie.com/robots.txt。请注意:如果您的域名在没有www的情况下响应。然后确保它也有相同的robots.txt文件!http和https也是如此。当搜索引擎想要抓取URL http://yueshijie.com/test时,它会抓取http://yueshijie.com/robots.txt。当它想要通过https来抓取相同的URL时,它也robots.txt将从你的https网站获取。搜索引擎优化排名

搜索引擎优化排名:使用robots.txt文件的利弊,以及robots.txt语法详解

robots.txt实际调用您的文件也非常重要。这个名称区分大小写,所以要正确,否则它将无效。

使用robots.txt的利弊

抓取预算

搜索蜘蛛到达一个网站,其中有一个“允许”,表示它将抓取多少页面,而SEO则将其称为爬网预算。这意味着,如果您从搜索引擎蜘蛛中屏蔽网站的各个部分,则可以将抓取预算用于其他部分。首先快速阻止搜索引擎爬行几个部分是非常有益的,特别是在必须进行大量SEO清理的网站上。

Con:不从搜索结果中删除页面
即使你可以使用该robots.txt文件告诉蜘蛛它不能在你的网站上,你不能使用它告诉搜索引擎哪些网址不会显示在搜索结果中 – 换句话说,阻止它不会阻止它被编入索引。如果搜索引擎找到足够的链接到该URL,它将包含它,它将不知道该页面上的内容。所以你的结果看起来像这样:

如果要可靠地阻止页面显示在搜索结果中,则需要使用元机器人noindex标记。这意味着,为了找到noindex标签,搜索引擎必须能够访问该页面,因此不要阻止它robots.txt。

Con:没有传播链接值
如果搜索引擎无法抓取页面,则无法在该页面上的链接上传播链接值,但如果它可以抓取但不对页面编制索引,则可以。当页面被阻止时robots.txt,任何链接值都将丢失。

robots.txt 语法

当robots.txt文件由指令中的一个或多个块,每个块开头的用户代理线。“user-agent”是它所针对的特定蜘蛛的名称。您可以为所有搜索引擎使用一个块,为用户代理使用通配符,或为特定搜索引擎使用特定块。搜索引擎蜘蛛将始终选择与其名称最匹配的块。

这些块看起来像这样(不要害怕,我们将在下面解释):

用户代理: *
不允许: /

用户代理:Googlebot
不允许:

用户代理:bingbot
禁止:/ not-for-bing /

指令喜欢Allow并且Disallow不应该区分大小写,因此无论您是将它们写成小写还是大写它们都取决于您。该值  是  区分大小写但是,/photo/是不一样的/Photo/。我们喜欢将指令大写,因为它使文件更容易(人类)阅读。

User-agent 指示
每个指令块的第一位是用户代理,它标识一个特定的蜘蛛。用户代理字段与特定蜘蛛(通常更长)的用户代理进行匹配,因此例如来自Google的最常见蜘蛛具有以下用户代理:

Mozilla / 5.0(兼容; Googlebot / 2.1;
+ HTTP://www.google.com/bot.html)

因此,如果你想告诉这个蜘蛛该做什么,一个相对简单的User-agent: Googlebot线就可以了。

大多数搜索引擎都有多个蜘蛛。他们将使用特定蜘蛛作为正常索引,广告程序,图片,视频等。

搜索引擎将始终选择他们可以找到的最具体的指令块。假设您有3组指令:一组用于*,一组用于Googlebot,一组用于Googlebot-News。如果机器人来自其用户代理Googlebot-Video,它将遵循Googlebot restrictions。具有用户代理的机器人Googlebot-News将使用更具体的Googlebot-News指令。

搜索引擎蜘蛛最常见的用户代理
以下是您可以在robots.txt文件中使用的用户代理列表,以匹配最常用的搜索引擎:

搜索引擎蜘蛛最常见的用户代理

Disallow 指示
任何指令块中的第二行是该Disallow行。您可以拥有一行或多行,指定指定蜘蛛无法访问的站点部分。空Disallow行意味着您不会禁止任何内容,因此基本上这意味着蜘蛛可以访问您网站的所有部分。

以下示例将阻止所有“收听”的搜索引擎robots.txt抓取您的网站。

用户代理: *
不允许: /

下面的示例只允许一个字符,  允许所有搜索引擎抓取整个网站。

用户代理: *
不允许:

以下示例将阻止Google抓取Photo您网站上的目录 – 以及其中的所有内容。

用户代理:googlebot
禁止:/photo

这意味着目录的所有子目录/Photo也不会被蜘蛛抓取。它不会阻止Google抓取/photo目录,因为这些行区分大小写。

如何使用通配符/正则表达式
“正式”,该robots.txt标准不支持正则表达式或通配符,但是,所有主要搜索引擎都理解它。这意味着您可以使用这样的行来阻止文件组:

禁止:/ *。php
禁止:/copyrighted-images/*.jpg

在上面的示例中,*扩展为它匹配的任何文件名。请注意,该行的其余部分仍区分大小写,因此上面的第二行不会阻止调用的文件/copyrighted-images/example.JPG被爬网。

一些搜索引擎,如谷歌,允许更复杂的正则表达式,但要注意一些搜索引擎可能不理解这种逻辑。它添加的最有用的功能是$,表示URL的结尾。在以下示例中,您可以看到它的作用:

禁止:/ *。phpp

这意味着/index.php无法编入索引,但/index.php?p=1 可以  。当然,这仅在非常特殊的情况下才有用,而且非常危险:很容易解锁您实际上不想解锁的内容。

sitemap XML Sitemaps的指令

使用该sitemap指令,您可以告诉搜索引擎 – 特别是百度,bing和Google – 在哪里可以找到您的XML站点地图。当然,您也可以使用各自的网站管理员工具解决方案将XML站点地图提交给每个搜索引擎,我们强烈建议您这样做,因为搜索引擎网站管理员工具程序会为您提供有关您网站的大量有价值信息。如果您不想这样做,sitemap为您添加一行robots.txt是一个很好的快速选择。

越视界是一家专业的整合营销公司,整合媒体传播服务、SEO优化服务、口碑营销服务为一体,从成立至今已为超过529家公司,提供了优质服务,为企业提供优质的网络营销服务是我们立足市场的根本,联系电话:4000-565-626好了,搜索引擎优化排名:使用robots.txt文件的利弊,以及robots.txt语法详解就分享到这里。感谢阅读,欢迎分享!

北京网站优化公司_SEO优化公司_北京新闻发稿_稿件策划撰写_越视界

相关新闻