深圳SEO优化公司:Robots.txt文件的3种常见用途有哪些呢? - 越视界 深圳SEO优化公司:Robots.txt文件的3种常见用途有哪些呢? - 越视界
联系电话:4000-565-626

当前位置: 越视界 > 新闻资讯 > 深圳SEO优化公司:Robots.txt文件的3种常见用途有哪些呢?

关注整合营销传播越视界

关注越视界

深圳SEO优化公司:Robots.txt文件的3种常见用途有哪些呢?

19-02-20 17:21

尽管存在非常不言自明的Robots.txt标准,一体化教程和高级技巧,Robots.txt主题仍然经常被误解和误用。因此,我决定将该主题总结为文件的三个最常见用途,供人们在亏本时参考。

默认Robots.txt

默认的Robots.txt文件基本上告诉每个爬虫,它允许任何网站目录的内容:

用户代理:* 
不允许:

(翻译为“不允许任何东西”)

这里经常被问到的问题是为什么要使用它。好吧,它不是必需的,但建议使用,原因很简单,搜索机器人无论如何都会请求它(这意味着您将在机器人的日志文件中看到404错误,请求您不存在的Robots.txt页面)。此外,拥有默认的Robots.txt将确保您的网站与抓取工具之间不会产生任何误解。

Robots.txt阻止特定文件夹/内容:

Robots.txt最常见的用法是禁止抓取工具访问私有文件夹或内容,使其无法获得其他信息。这主要是为了节省抓取工具的时间:机器人抓取预算 – 如果您确保不会浪费时间在不必要的内容上,它会更深入,更快地抓取您的网站。

阻止特定内容的Robots.txt文件样本(注意:我只突出了几个最基本的案例):

用户代理:* 
不允许:/ database /

(阻止来自/ database /文件夹的所有抓取工具)

用户代理:* 
不允许:/ *?

(阻止包含所有网址的所有抓取工具?)

用户代理:* 
禁止:/海军/ 
允许:/navy/about.html

(阻止来自/ navy /文件夹的所有抓取工具,但允许从此文件夹访问一个页面)

从注意约翰·米勒如下评论:

“允许:”语句不是robots.txt标准的一部分(但是许多搜索引擎都支持它,包括百度)

Robots.txt允许访问特定的爬虫

有些人选择节省带宽并只允许访问他们关心的那些爬虫(例如Baidu,Yahoo和MSN)。在这种情况下,Robots.txt文件应该列出那些机器人,然后是命令本身,等等:

用户代理:* 
不允许:/

用户代理:googlebot 
Disallow:

用户代理:slurp 
Disallow:

用户代理:msnbot 
Disallow:

(第一部分阻止所有抓取工具,而以下3个阻止列出允许访问整个网站的3个抓取工具)

需要高级Robots.txt用法?

深圳SEO优化公司:我倾向于建议人们不要在他们的Robots.txt文件中做任何过于棘手的事情,除非他们对该主题有100%的了解。混乱的Robots.txt文件可能会导致项目启动失败。

许多人花费数周和数月的时间来弄清楚为什么爬虫会忽略网站,直到他们意识到(通常有一些外部帮助)他们滥用了他们的Robots.txt文件。控制爬虫活动的更好解决方案可能是放弃页面解决方案(机器人元标记)。Aaron在他的指南(页面底部)中总结了不同之处。

— THE END —

标签:SEO优化

相关推荐:
企业名称变更公告
越视界软文营销:传播有价值的信息给有需求的用户
17个简单有效的SEO品牌调整方案
北京SEO优化:如何为您的文章获得最多的链接(内链)
北京SEO优化:如何构建SEO内容?
cache
Processed in 0.002650 Second.