北京SEO公司,什么是robots.txt?以及如何运作?

什么是robots.txt?Robots.txt是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分,该协议是一组Web标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户北京SEO公司。REP还包括诸如元机器人之类的指令,以及关于搜索引擎应如何处理链接(例如“跟随”或“nofollow”)的页面,子目录或站点范围的指令。

实际上,robots.txt文件指示某些用户代理(网络爬行软件)是否可以抓取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。

北京SEO公司,基本格式:

User-agent:[用户代理名称]

Disallow:[不要抓取的URL字符串]

这两行被认为是完整的robots.txt文件 – 尽管一个机器人文件可以包含多行用户代理和指令(即,禁止,允许,爬行延迟等)。  

北京SEO公司,示例robots.txt

以下是www.yueshijie.com网站上robots.txt的几个示例:

Robots.txt文件网址:www.yueshijie.com/robots.txt
阻止所有内容的所有网络抓取工具
用户代理: * 
不允许: /

在robots.txt文件中使用此语法会告诉所有网络抓取工具不要抓取www.yueshijie.com上的任何网页,包括主页。

允许所有Web爬网程序访问所有内容
用户代理: * 
不允许: 

在robots.txt文件中使用此语法可告知网络抓取工具抓取www.yueshijie.com上的所有网页  ,包括主页。

阻止特定文件夹中的特定Web爬网程序
用户代理:Baidu Spider
禁止:/ example-subfolder /

此语法仅告知百度的抓取工具(用户代理名称Baidu Spider)不要抓取包含URL字符串www.yueshijie.com/example-subfolder/的任何网页。

阻止特定网页上的特定网络抓取工具
用户代理:360Spider
禁止:/example-subfolder/blocked-page.html

此语法仅告知360的抓取工具(用户代理名称360Spider),以避免在www.yueshijie.com/example-subfolder/blocked-page抓取特定页面。

北京SEO公司,robots.txt如何运作?

搜索引擎有两个主要工作:

  1. 抓取网络以发现内容;
  2. 为该内容编制索引,以便将其提供给正在寻找信息的搜索者。

为了抓取网站,搜索引擎会关注从一个网站到另一个网站的链接 – 最终会抓取数十亿个链接和网站。这种爬行行为被称为“蜘蛛”。

到达网站后但在搜索网站之前,搜索爬虫会查找robots.txt文件。如果找到,爬虫将在继续浏览页面之前首先读取该文件。由于robots.txt文件包含有关搜索引擎应如何抓取的信息,因此在此处找到的信息将指示此特定网站上的进一步抓取操作。如果robots.txt文件并没有包含禁止用户代理的活动的任何指示(或如果网站没有robots.txt文件),它会继续抓取网站上的其他信息。

北京SEO公司,robots.txt语法

Robots.txt语法可以被认为是robots.txt文件的“语言”。您可能在机器人文件中遇到五个常见术语。他们包括:

  • User-agent:您要向其提供爬网指令的特定Web爬网程序(通常是搜索引擎)。可以在此处找到大多数用户代理的列表
  • Disallow:用于告知用户代理不要抓取特定URL的命令。每个URL只允许一行“Disallow:”行。
  • User-agent:告诉百度蜘蛛它可以访问页面或子文件夹的命令,即使其父页面或子文件夹可能不被允许。
  • 站点地图:用于调出与此URL关联的任何XML站点地图的位置。

北京SEO公司,什么是robots.txt?以及如何运作?

越视界是一家专业的北京SEO优化公司,从成立至今已为超过523家公司,提供了优质服务,为企业提供优质的网络营销服务是我们立足市场的根本,联系电话:4000-565-626,好了,北京SEO优化什么是robots.txt?以及如何运作?就分享到这里。感谢阅读,欢迎分享!

北京网站优化公司_SEO优化公司_北京新闻发稿_稿件策划撰写_越视界

相关新闻