深圳SEO优化:提升网站可索引性的5个步骤 - 越视界 深圳SEO优化:提升网站可索引性的5个步骤 - 越视界
联系电话:4000-565-626

当前位置: 越视界 > 新闻资讯 > 深圳SEO优化:提升网站可索引性的5个步骤

关注整合营销传播越视界

关注越视界

深圳SEO优化:提升网站可索引性的5个步骤

19-02-20 17:29

抓取和索引是百度地图程序的两个主要任务,深圳SEO优化:站长可以通过多次修改网站地图并提交来促进网站的索引,这样可以让百度蜘蛛更彻底的进行抓取工作,并为我们的网站提供更好的排名。

1.基础知识

1.1 Robots.txt

在robots.txt的是一个简单的文本文件,它给人的百度机器人的网站应该如何被抓取的具体说明。例如,排除某些目录。这些通常是数据敏感区域,例如登录和客户帐户,不应编入索引。

创建robots.txt文件时,务必确保机器人可以访问正确显示网站所需的所有资源。例如,您应该避免在robots.txt中阻止CSS或JavaScript文件。

如果要从爬网中排除特定目录,请在robots.txt中使用以下代码:

用户代理:* 
不允许:/yueshijie/ *

星号是占位符(所谓的通配符),表示与此目录关联的所有其他内容。

创建robots.txt文件后,需要将其保存在网站的根目录中:

www.yueshijie.com/robots.txt

1.2 XML站点地图

除了robots.txt之外,还有另一个文件对索引起着关键作用:XML站点地图。这是一个机器可读的文件,列出了您网站上的所有网址。这些结构化数据以文本形式创建并以XML格式保存。此文件还允许您另外传输除URL之外的其他信息,例如上次更新各种URL时。

创建XML文件后,将其添加到百度站长工具以通知百度现有的网址。但是,XML站点地图仅向百度推荐网址,并且不会向机器人提供robots.txt文件中的任何说明。因此,百度会在索引网站时忽略该文件的内容。

XML站点地图通常处理得很差,尽管它在新网站和大型网站的索引编制方面非常方便,因为它向百度通知了所有现有的子网页。例如,如果您的网页上的新内容没有很好地相互关联,请使用站点地图向百度通知此内容。

2.利用抓取预算

百度僵尸程序是一种计算机程序,旨在跟踪链接,抓取网址,然后对内容进行解释,分类和编制索引。为此,机器人的爬行预算有限。被抓取和编入索引的页面数取决于相应网站的页面排名,以及机器人可以轻松地遵循网站上的链接。

优化的网站架构将使机器人更容易。特别是,平面层次结构有助于确保机器人访问所有可用的网页。正如用户不喜欢通过超过四次点击来访问所需内容一样,如果路径复杂,百度僵尸程序通常无法通过大型目录深度。

使用内部链接也会影响爬网。无论导航菜单如何,您都可以使用文本中的深层链接向机器人提供其他URL的提示。这样,指向主页中重要内容的链接将被更快地抓取。使用锚标记来描述链接目标为机器人提供了有关链接期望内容以及如何对内容进行分类的附加信息。

为了让机器人能够更快地抓取您的内容,请使用h-tag在逻辑上定义您的标题。在这里,您应确保按时间顺序构建标记。这意味着使用主标题的h1标记和子标题的h2,h3等。

许多CMS和网页设计师经常使用h-tag来格式化页面标题的大小,因为它更容易。这可能会在抓取过程中混淆百度蜘蛛。您应该使用CSS指定独立于内容的字体大小。

3.避免强迫机器人通过绕道

孤立页面和404错误会不必要地压缩爬网预算。

每当百度僵尸程序遇到错误页面时,它都无法跟踪任何其他链接,因此必须返回并从另一个点重新开始。在网站运营商从其在线商店删除产品或更改URL后,浏览器或抓取工具通常无法找到URL。在这种情况下,服务器返回404错误代码(未找到)。但是,大量此类错误会占用机器人爬行预算的很大一部分。网站管理员应确保定期修复此类错误(另请参阅#5 – “监控”)。

孤立页面是没有任何内部入站链接但可能具有外部链接的页面。僵尸程序要么无法抓取此类页面,要么突然被迫停止抓取。与404错误类似,您还应该尝试避免孤立页面。这些页面通常是由于Web设计中的错误或内部链接的语法不再正确而导致的。

4.避免重复内容

根据百度的说法,重复的内容没有理由对相应的网站采取行动。但是,这不应被解释为表示重复内容应保留在网站上。如果搜索引擎优化组织或网站管理员对此没有采取任何措施,搜索引擎将继续进行,并根据强相似性决定要索引的内容和要忽略的URL。监控并控制百度如何使用以下三种方法处理此类内容:

  • 301重定向:重复内容可以非常快速地发生,特别是如果带有www的版本。没有索引。这也适用于通过https进行的安全连接。为避免重复内容,您应使用指向首选网页版本的永久重定向(301)。这需要相应地修改.htaccess文件或在百度站长工具中添加首选版本。

  • 规范标签:特别是,在线商店存在重复内容的风险,因为产品可以在多个URL上使用。使用规范标记解决此问题。标签会通知百度蜘蛛有关应编入索引的原始网址版本。您应该确保所有不应编入索引的URL都有一个标记指向源代码中的规范URL。您可以使用不同的工具来测试规范标记。这些工具可帮助您识别没有规范标记的页面或具有错误规范标记的页面。理想情况下,每个页面都应该有一个规范标记。唯一/原始页面应具有自引用规范标签。

  • rel = alternate:如果网站提供各种区域语言,或者您同时拥有网站的移动版和桌面版,则此标记非常有用。该标记会向百度蜘蛛通知具有相同内容的替代网址。

5.监控:快速修复

定期检查百度站长工具中的数据始终是了解百度如何抓取您的网站并将其编入索引的好方法。Search Console提供了大量提示,可帮助您优化网站的抓取方式。

在“抓取错误”下,您将找到404错误和所谓的“软404错误”的详细列表。软404错误描述未正确显示且服务器未返回任何错误代码的页面。

在这里,爬行统计非常有启发性。这些显示了百度程序访问网站的频率以及在此过程中下载的数据量。值的随机下降可能清楚地表明网站上的错误。

除了“抓取百度”和“robots.txt Tester”之外,“网址参数”工具也非常实用。这使网站管理员和SEO能够指定百度机器人应如何处理URL的某些参数。例如,指定用于解释URL的特定参数的重要性有助于进一步优化机器人的爬网预算。

结论

本文中介绍的选项将帮助您优化百度僵尸网站抓取和编制索引的方式。反过来,这使您的网站更容易在百度上找到。因此,上述选项为成功的网站设定了基础,因此没有什么阻碍更好的排名。

深圳SEO优化公司:本文由越视界网站SEO优化团队网络整编而成,如需了解更多SEO优化的文章、新闻、工具和SEO优化技巧、案例、各种网站优化知识百科请进入:http://www.yueshijie.com/news并且可以对越视界优化师进行一对一问答

— THE END —

标签:SEO优化

相关推荐:
企业名称变更公告
越视界内容营销:传播有价值的信息给有需求的用户
17个简单有效的SEO品牌调整方案
北京SEO优化:如何为您的文章获得最多的链接(内链)
北京SEO优化:如何构建SEO内容?
cache
Processed in 0.003950 Second.